Project

General

Profile

Het paginaoogstproces

De OpenTaal-server houdt een paar hoofdpagina's (ongeveer 30) van goed geredigeerde sites in de gaten, en probeert de toegevoegde pagina's te oogsten. Dat wil zeggen dat:
  • de pagina wordt opgehaald,
  • van rommel wordt ontdaan,
  • in zinnen wordt gesplitst
  • unieke zinnen in een tabel worden gestopt (met indicatie van de bron)
  • nieuwe woorden worden geoogst (als ze tussen 2 als juist bekende woorden staan)
  • de woorden in de zin worden geteld, zodat de gebruiksfrequentie bekend wordt.