Project

General

Profile

Oogsten van woorden van websites

Van een beperkt aantal websites, voornamelijk kranten en overheidssites wordt de hoofdpagina bijgehouden om te zien welke links er staan.
Een (zelfgebouwd) struinprogramma (crawler) loopt alle pagina's af en zet deze om in tekst.

Verder wordt er geoogst uit gedoneerde stukken, zoals de Kamerstukken van 1995 tot en met 2007, en worden gevonden pdf-files op de achtergrond ook omgezet in platte tekst en geoogst.

De geoogste tekst wordt omgezet in losse zinnen. Dat is niet eenvoudig, zie het detecteren van zinnen.

Uit elke zin wordt elk woord geoogst dat tussen 2 eerder al goed gevonden woorden staat.

Uit de pagina worden natuurlijk ook de verwijzingen gehaald die binnen de site zelf verwijzen, en aan de verzameling af te lopen pagina's toegevoegd.