Project

General

Profile

Een woord binnen OpenTaal (WIP)

WIP: Deze pagina is in ontwikkeling

Deze pagina beschrijft de verschillende items die door OpenTaal worden vastgelegd.

Inhoud van een woord

Hier onder vind je een overzicht van de items die OpenTaal vastlegt

woordkenmerken / woorddetails

Verzamelen van statistiek

  • aanwezigheid in woordenlijst.org
  • google telling
  • aantal zinnen

Validatie van een woord

Hieronder vind je een opsomming van de processen in volgorde van relevantie:

ontvangen van nieuwe woorden

begin analyse

  1. Google raadplegen
  2. Woordenlijst.org raadplegen
  3. Visuele goedkeuring
Belangrijke grenswaarden voor volgende processen:
  • 3 verschillende keurders hebben het woord goedgekeurd of
  • Google hits > x

Ruud: Google hits zegt geen fluit. Daadwerkelijk gevonden aantal voorbeelden wel. Zie num_examples. Daarnaast ss de foutkans relevant. Zie een woord als /mar/.

Verdere analyse

  1. Verzamelen van woordkenmerken / woorddetails
    • afbreekpatronen
    • postag toekennen
    • IPA
    • synoniemen vastleggen

Opname in woordenlijst

Zie eerst dit

Via de webinterface om woorden te bewerken is het mogelijk de versie-informatie aan te passen die wordt bijgehouden in de tabel http://data.opentaal.org/docs/databasestructuur/opentaal/tables/words_list.html . De keuzen voor next_version zijn:

code omschrijving
- Niet opgenomen
b Gepland voor opname als ongekeurd basiswoord
B Opgenomen als ongekeurd basiswoord
f Gepland voor opname als afgeleide
F Opgenomen als afgeleide vorm
v Gepland om als verwarrend te markeren
V Opgenomen als correct, maar verwarrend
k Gepland voor keuring als basiswoord
K Opgenomen als basiswoord, goedgekeurd door Taalunie
h Gepland hoofdletterschrijfwijze van gewoon woord
H Hoofdletterschrijfwijze van gewoon woord
d Gepland alleen als deel van woordgroep (in spellingcontrole, niet in woordenlijst)
D Alleen als deel van woordgroep (in spellingcontrole, niet in woordenlijst)
x Gepland om als fout te markeren
X Fout

Deze zijn gedefinieerd in de tabel http://data.opentaal.org/docs/databasestructuur/opentaal/tables/words_status.html .

Oordeel

Via de webinterface om woorden te beoordelen http://data.opentaal.org/opentaalbank/woordenBeoordelen/ wordt in tabel http://data.opentaal.org/docs/databasestructuur/opentaal/tables/woordbeoordelingen.html , waar onder andere ook notities (betekenis, opmerkingen), alternatief (of basiswoord) en of beoordeling is verwerkt, het volgende oordeel opgeslagen:
Error / Fout
Bl Buitenlands woord
If Is informeel of plat van: ...
Of Overig fout
On Verouderd Nederlands
Xv Hoort aan ander woord vast
Xx Is een vergissing van: ...
Xy Is geen (zinvol) woord
Default
Lw Leenwoord
Tg Alleen als deel van woordgroep
Tw Twijfelgeval
Vw Verwarrend met
OK / Goed
Nf Is afgeleide van woord: ...
Nn Is een basiswoord
Oc Overig correct
Eigennaam
Pa Achternaam
Pg Gebouwsnaam
Pl Locatienaam
Po Organisatienaam
Ps Straatnaam
Pv Voornaam

Keuringsstatus

Tijdens het keuren van de vorige versie werd er terugkoppeling gegeven. Dat is opgeslagen in de het veld keuringsstatus van de tabel words_list. De betekenis hiervan is:
OKE Dit woord is goedgekeurd door keurende instantie.
SUGGESTED Dit is een (goedgekeurd) woord dat door keurende instantie als suggestie is gegeven voor een ander woord dat niet goedgekeurd kon worden.
UNKNOWN Dit woord is niet bekend door keurende instantie.
AMBIGUOUS Volgens keurende instantie is er waarschijnlijk iets mis met dit woord. (willem, p.p., i.e., O.L.V., Gouda)
NONWORD Dit werd door keurende instantie niet als woord erkend (LEGO, IBM).

woordtype

Zie eerst dit

Rows woordtype
954760
4 Inwoner gebied
2 X
4 afkomstig uit gebied
196 bedrijf
23 bezitsvorm gebied
2 bezitsvorm inwoner
5198 bezitsvorm voornaam
8 eenheid
16151 familienaam
266 gebied
4437 gebied, plaatsnaam
1 groepering
70 historische naam
136 inwoner gebied
46 inwoners gebied
117 inwoonster gebied
1 inwoonsters gebied
1 islam
172 klemtoonschrijfwijze
107 merk
3 naam fictief persoon
144 organisatie
6 plaatsnaam
44 product
271 rangtelwoord
40 romeins getal
93 straat, plein etc.
1 uitdrukking
1 voornaam

word_status

Zie eerst dit

Rows woord_status
158448
158588 +
160540 -
11757 2009:
7 2009:Aanhouden
10065 2009:Handhaven
4 2009:Overleg met INL
128 2009:Verwijderen
46130 Afgekeurd
310795 Correct
41 Correct met optioneel koppelte
999 Correct, Basiswoord
49486 Correct, Flexievorm van:
2205 Correcte woordgroep
4 Deel van woordgroep
19 Eigennaam
2 Facultatief koppelteken
5327 Familienaam (NL)
13 Flexievorm van:
479 Fout van:
6949 Geen woord, getal
54613 Hoofdlettervorm
10724 Hoofletterschrijfwijze (volled
109 Verwarrend
156 nadrukschrijfwijze

Voorbeeld

include demo