Project

General

Profile

Keuringsprocedure en werkwijze OpenTaal

OpenTaal publiceert in ieder geval een spellingcontrole en woordenlijst die het keurmerk heeft van de Taalunie.
Het verkrijgen van zo'n keurmerk is niet eenvoudig. Hieronder zetten we het uiteen.

Wat wordt er gekeurd?

De Taalunie keurt alleen de basisvormen van 'normale' woorden.
Buiten hun keuring vallen:
  • alle eigennamen van onder meer personen, gebouwen, straten, steden, landen etc.
  • alle flexievormen (dat zijn de afgeleiden van de basiswoorden)
  • de algoritmes van de spellingcontrole

Het begint

Met een verzameling woorden die OpenTaal dan zelf al beoordeeld heeft.
Iedereen die zich OpenTaler voelt kan woorden beoordelen (http://data.opentaal.org/opentaalbank/woordenBeoordelen/).

Uit de correct bevonden woorden moeten dan de basiswoorden worden gezocht. Helaas is het begrip basiswoord niet altijd even duidelijk gedefinieerd.
Basiswoorden zijn eigenlijk de vormen die je vooraan de regel in een woordenboek zou zetten:
  • van het een zelfstandig naamwoord de onverkleinde, enkelvoudige vorm (deur; deurtje, deurtje, deurtjes zijn de flexievormen).
  • van een bijvoeglijk naamwoord de normale vorm (groot; grote, groter, grotere, grootst en grootste zijn de flexievormen. Maar ook netjes, kalmpjes zijn basiswoorden.)
  • van een werkwoord het werkwoord zelf (lopen; loop, loopt, liep, liepen, gelopen, lopend, lopende zijn flexievormen)
  • discussie is er soms wel, vooral bij minder gebruikelijke woorden.
  • woorden met extra leestekens (gá) zijn een apart te behandelen categorie, net als andere schrijfwijzen van hetzelfde woord, bijvoorbeeld met een optioneel koppel-teken.

Of een woord een basis- of flexievorm is, is redelijk te gokken op basis van het einde van het woord. Maar niet altijd. Is 'aflopen' nu het meervoud van 'de afloop' of het werkwoord 'tot een einde komen'.
(In de beoordelingsmodule wordt dit impliciet gevraagd met 'is afgeleide van'.)

Het keuren

Na contact gelegd te hebben met de Taalunie, verkrijgen we de mogelijkheid om het bestand (UTF-8, Windows-regeleinden (CrLf), 1 woord per regel) met ftp op de server van de INL te zetten. (De laatste keuring is alles gezipt per e-mail gegaan overigens.)

Het INL haalt de lijst dan door hun programmatuur die HulK heet. Ze rapporteren dan 2 bestanden terug: een log, met totaaltellingen, en een lijst met 'bevindingen'.

De log

Die ziet er ongeveer zo uit:

Batchnaam : <naam> - <datum en tijd>
Invoer    : Woordenlijst             <bestandsnaam>
Uitvoer   : Logbestand               log.txt
            Woorden met toelichting  woordenmettoelichting.txt
Versie    : Lexicon                  7
            PSC Spelling engine      3.2.0

===============================================================================

Totaal Aantal woorden          : 22841 (=het aantal ingelezen woorden)
Aantal goedgekeurde woorden    : 22572 (=het succes tot nu toe)
Aantal woorden met toelichting : 19    (veilige samenstellingen+bekende fouten)
       Ambigue woorden         : 98    (correcte woorden met meerdere schrijfwijzen, verschillende betekenis,zoals Co, CO en co)
       Veilige samenstellingen : 17    (woorden die bijna altijd goed zijn, maar wel nagekeken gaan worden)
       Aantal bekende fouten   : 2     
       Aantal suggesties       : 0     (onbekende woorden waarvoor een alternatief wordt gegeven, als in spellingcontrole)
Aantal onbekende woorden       : 152   (nog te beoordelen woorden)

De toelichtingen

voorbeelden:
AED; ambigu: AED;aed
B-complex; bekende fout: vitamine B-complex
Kamerbrief; samenstelling: Kamer+brief; 
daarvóór, onbekend, suggestie daarvoor

Het mooie hiervan is dat je met de suggesties gelijk verbeteringen en soms andere correcte woorden gratis krijgt aangereikt.

Het verwerken

De andere woorden moet je wel degelijk zelf ook nog een keer goed bekijken. Kom je tot de ontdekking dat je woorden wilt terugtrekken, haal ze dan uit de lijst.
(Het is beter om ze als 'te verwijderen' te markeren met een reden erbij. Ik gebruikte hiervoor een tabel in de database. Het voordeel is dat je dan na afloop van de keuring eenvoudig alle correcte woorden in de woordenlijst kunt verwerken.)
Gebruik de community in geval van twijfel.

De INL gaat alle woorden die onbekend zijn, al dan niet met een toelichting, handmatig beoordelen. Dat is ongelooflijk veel nauwgezet werk. Dat duurt meestal dan ook even.
Het kan zelfs zijn dat twijfelgevallen aan de commissie van geleerden moeten worden voorgelegd: de spellingcommissie. Die komen niet frequent bijeen en hebben dan veel te bespreken. Dan moet je nog meer geduld hebben. (Of de woorden uit de lijst halen voor deze keuring.)
Het kan geen kwaad om de vinger aan de pols te houden en regelmatig de planning en voortgang te bespreken.
Je bent als indiener van woorden ook nooit de enige partij en het enige project voor de INL. Geduld siert de mens.

Als die handmatige beoordeling is gedaan, worden de resultaten verwerkt in hun database.

Dan krijg je een signaal dat je weer de (bijgewerkte) lijst kunt indienen. Dan begint dus ronde 2.

Zo blijft het doorgaan totdat er geen bekende fouten en onbekende woorden meer uit de rapportage komen.