Het paginaoogstproces¶
De OpenTaal-server houdt een paar hoofdpagina's (ongeveer 30) van goed geredigeerde sites in de gaten, en probeert de toegevoegde pagina's te oogsten. Dat wil zeggen dat:
- de pagina wordt opgehaald,
- van rommel wordt ontdaan,
- in zinnen wordt gesplitst
- unieke zinnen in een tabel worden gestopt (met indicatie van de bron)
- nieuwe woorden worden geoogst (als ze tussen 2 als juist bekende woorden staan)
- de woorden in de zin worden geteld, zodat de gebruiksfrequentie bekend wordt.
Also available in:
HTML
TXT