Project

General

Profile

Nabewerkingen van de oogst

Het nabewerken van woorden

Natuurlijk worden er veel woorden geoogst, meer dan 1000 per dag. Dat is te veel om handmatig te beoordelen.

Daarom worden de binnengekomen worden nabewerkt.

Allereerst wordt gekeken op welke juiste woorden ze lijken. Dat gebeurt met een een eigen spellingcontrole. De woorden worden van best gelijkend naar minder gelijkend gesorteerd aan het woord toegevoegd. Dit maakt het vergelijken van het woord met goede woorden eenvoudiger. Zo wordt eindhove herkend als een mogelijke fout van Eindhoven.

Verder wordt gekeken of het woord een samengesteld woord zou kunnen zijn. Er worden namelijk veel gelegenheidssamenstellingen geoogst. Een herkende samenstelling heeft een betere kans om een goed woord te zijn dan een niet-samengesteld woord. Ook de samenstelling wordt aan het woord toegevoegd, want dat is niet alleen nuttig voor de herkenning, maar ook voor het afbreken. Zie meer onder detectie woordsamenstelling.

Verder wordt nog gewerkt aan het inschatten van de 'Nederlandsheid' van een woord. Dit door de frequentie van letterreeksen in goede Nederlandse woorden te bepalen, en hieruit per nieuw woord een score te bepalen.