Project

General

Profile

Woordcategorieën

DIT IS EEN WERKDOCUMENT

BEGIN NIEUWE VERSIE

Inleiding

Voor het doen van verschillende analyses en ontwikkelen van toepassing is het nodig om woordcategorieën ofwel tags aan woorden te kunnen koppelen. Momenteel gebruik OpenTaal via synsets alleen top-level POS-tags (part-of-speech tags). Daarmee wordt aangegeven of betekenis van een woord bijvoorbeeld een werkwoord of een zelfstandig naamwoord is. Deze manier van tagging wordt gebruikt in de thesaurus van OpenTaal.

De database kent momenteel de volgende waarden voor synset_types:

@id;synset_type

-1;onbekend
1;werkwoord
2;zelfstandig naamwoord
3;bijvoeglijk naamwoord
4;bijwoord
5;telwoord
6;lidwoord
7;voornaamwoord
8;voorzetsel
9;voegwoord
10;tussenwerpsel@

Omdat woorden kunnen worden vervoegd of worden afgeleid is het ook mogelijk om een classificatie aan deze relatie te kunnen koppelen. Momenteel kent de database de volgende waarden voor word_meaning_relation_types (de spelfouten in de beschrijving zijn reeds bekend):

@id;synset_type;description;check_missing

1;2;meervoud;1
2;2;verkleinwoord enkelvoud;1
3;2;verkleinwoord meervoud;1
4;3;onverbogen vergrotend;1
5;3;onverboven overtreffend;1
6;3;verbogen stellend;1
7;3;verbogen vergrotend;1
8;3;verbogen overtreffend;1
9;3;paritief stellend;1
10;3;paritief vergrotend;1
11;1;1st persoon enkelvoud tegenwoordige tijd;1
12;1;2de en 3de persoon enkelvoud tegenwoordige tijd;1
13;1;meervoud tegenwoordige tijd;1
14;1;enkelvoud verleden tijd;1
15;1;meervoud verleden tijd;1
16;1;onvoltooid deelwoord, als bijwoord;1
17;1;voltooid deelwoord, als bijwoord;1
18;1;gebiedende wijs, enkelvoud;1
19;1;aanvoegende wijs;1
20;1;voltooid deelwoord, als bijvoeglijk naamwoord;1
21;1;onvoltooid deelwoord, als bijvoeglijk naamwoord;1
22;1;gebiedende wijs, meervoud;1
23;1;verleden tijd met -t (ge);1
24;1;infinitief, als bijvoeglijk naamwoord;1
25;1;voltooid deelwoord, als zelfstanding naamwoord, enkelvoud;1
26;1;voltooid deelwoord, als zelfstanding naamwoord, meervoud;1
27;1;onvoltooid deelwoord, als zelfstanding naamwoord, enkelvoud;1
28;1;onvoltooid deelwoord, als zelfstanding naamwoord, meervoud;1
29;5;meervoud;1
30;5;verkleinwoord;1
31;5;verkleinwoord meervoud;1
32;5;bijzonder;1
33;5;rangtelwoord;1
34;5;rangtelwoord bijzonder;1
35;5;rangtelwoord meervoud;1
36;2;genitief;0
37;2;datief;0
38;2;genitief verkleinwoord;0@

Voor grammaticacontrole met LanguageTool was het nodig om meer fijnmazige POS-tags te kunnen gebruiken in een string. Omdat deze tags door reguliere expressies gebruikt worden dienen ze kort te zijn en geen karakters te bevatten die geen escape nodig hebben. Deze tags noemen we short tags en zijn maar beperkt ontwikkeld en ingezet. TODO words_list.shorttag:

@#words shorttag
986343
1618 ---
1320 NN1d (noun singular)
342 NN1h (noun compund) Ruud?
116 NN1r (noun singular diminutive)
432 NN2 (noun plural)
180 NN2r (noun plural diminutive)

Voor deze en andere toepassingen is er behoefte om een beter systeem van tags te hanteren dat:
- in de databasestructuur van de thesaurus is op te slaan
- te mappen is op POS-tags CGN
- te mappen is op POS-tags van ISOcat
- ondersteuning heeft voor andere classificaties van ISOcat zoals frequentie en register
- uitbreidbaar is voor maatwerkclassificaties zoals soorten typoniemen zoals hydroniem, oroniem en hodoniem,

Hieruit volgt de volgde set van tags:

[P15] VWTYPE = pr (persoonlijk, reflexief), reciprook, bezittelijk, vb
(vragend, betrekkelijk), exclamatief, aanwijzend, onbepaald.
[P07] NAAMVAL = standaard (nominatief, oblique), genitief, datief.
[P18] PERSOON = persoon (1, 2 (2v, 2b), 3 (3p (3m, 3v), 3o)).
[P04] GETAL = getal (enkelvoud, meervoud).
[P19] NPAGR = agr (evon, rest (evz, mv)), agr3 (evmo, rest3 (evf, mv)).

p o s s e t=" cgn " c l a s s=" N ( soort , ev , basis , zijn , stan ) ">
< f e a t s u b s e t=" head " c l a s s=" N " />
< f e a t s u b s e t=" ntype " c l a s s=" soort " />
< f e a t s u b s e t=" number " c l a s s=" ev " />
< f e a t s u b s e t=" degree " c l a s s=" basis " />
< f e a t s u b s e t=" gender " c l a s s=" zijd " />
< f e a t s u b s e t=" case " c l a s s=" stan " />

short id cgn iso voorbeelden basiswoord
Nsebzs T101 N(soort,ev,basis,zijd, stan) die stoel, deze muziek, de filter -, -, -
Nseboz T102 N(soort,ev,basis,onz, stan) het kind, ons huis, het filter -, -, -
Nsedoz T103 N(soort,ev,dim, onz, stan) dit stoeltje, op ’t nippertje stoel, TODO
Nsebg T104 N(soort,ev,basis,gen ) ’s avonds, de heer des huizes avond, huis
Nsedg T105 N(soort,ev,dim, gen ) vadertjes pijp vader
Nsebd T106 N(soort,ev,basis,dat ) ter plaatse, heden ten dage plaats, TODO
Nsmb T107 N(soort,mv,basis ) stoelen, kinderen, hersenen stoel, kind, TODO plurale
Nsmd T108 N(soort,mv,dim ) stoeltjes, huisjes, hersentjes stoel, huis, hersenen
Neebzs T109 N(eigen,ev,basis,zijd, stan) de Noordzee, de Kemmelberg, Karel -, -, -
Neebos T110 N(eigen,ev,basis,onz, stan) het Hageland, het Nederlands -, -
Needos T111 N(eigen,ev,dim, onz, stan) het slimme Kareltje Karel
Neebg T112 N(eigen,ev,basis,gen ) des Heren, Hagelands trots Heer, Hageland
Needg T113 N(eigen,ev,dim, gen ) Kareltjes fiets Karel
Neebd T114 N(eigen,ev,basis,dat ) wat den Here toekomt Heer
Nemb T115 N(eigen,mv,basis ) de Ardennen, de Middeleeuwen TODO plurale?, TODO plurale?
Nemd T116 N(eigen,mv,dim ) de Maatjes TODO
Nsebgs U117 N(soort,ev,basis,GENUS,stan) een riool, geen filter -, -
Neebgs U118 N(eigen,ev,basis,GENUS,stan) Linux, Esselte -, -
Apbz T201 ADJ(prenom, basis, zonder ) een mooi huis, een houten pot -, -
ApbEs T202 ADJ(prenom, basis, met-e, stan ) mooie huizen, een grote pot mooi, groot
ApbEb T203 ADJ(prenom, basis, met-e, bijz ) zaliger gedachtenis, van goeden huize zalig, goed
Apcz T204 ADJ(prenom, comp, zonder ) een mooier huis mooi
ApcEs T205 ADJ(prenom, comp, met-e, stan ) mooiere huizen, een grotere pot mooi, groot
ApcEb T206 ADJ(prenom, comp, met-e, bijz ) van beteren huize beter
Apsms T207 ADJ(prenom, sup, zonder ) een alleraardigst mens TODO
ApsEs T208 ADJ(prenom, sup, met-e, stan ) de mooiste keuken, het grootste paard mooi, groot
ApsEb T209 ADJ(prenom, sup, met-e, bijz ) bester kwaliteit best
Anbzz T210 ADJ(nom, basis, zonder,zonder-n ) in het groot, het groen -, -
Anbzm T211 ADJ(nom, basis, zonder,mv-n ) de timiden, dezelfden -, - TODO
AnbEzs T212 ADJ(nom, basis, met-e, zonder-n,stan) het leuke is dat, een grote met tartaar leuk, groot
AnbEzb T213 ADJ(nom, basis, met-e, zonder-n,bijz) hosanna in den hogen hoog
AnbEm T214 ADJ(nom, basis, met-e, mv-n ) de rijken rijk
Anczz T215 ADJ(nom, comp, zonder,zonder-n ) TODO
AncEzs T216 ADJ(nom, comp, met-e, zonder-n,stan) een betere beter
AncEzb T217 ADJ(nom, comp, met-e, zonder-n,bijz) TODO
AncEm T218 ADJ(nom, comp, met-e, mv-n ) de ouderen ouder
AnsEzs T220 ADJ(nom, sup, met-e, zonder-n,stan) het leukste is dat, het langste blijven leuk, lang
AnsEzb T221 ADJ(nom, sup, met-e, zonder-n,bijz) des Allerhoogsten todo
AnsEm T222 ADJ(nom, sup, met-e, mv-n ) de slimsten slim
Apbz T223 ADJ(postnom,basis, zonder ) rivieren bevaarbaar in de winter todo
ApbS T224 ADJ(postnom,basis, met-s ) iets moois mooi
Apcz T225 ADJ(postnom,comp, zonder ) een getal groter dan 3 groot
ApcS T226 ADJ(postnom,comp, met-s ) iets gekkers kon ik niet bedenken gek
Avbz T227 ADJ(vrij, basis, zonder ) die stok is lang, lang slapen lang, lang
Avcz T228 ADJ(vrij, comp, zonder ) deze stok is langer, langer slapen lang, lang
Avsz T229 ADJ(vrij, sup, zonder ) die stok is het langst, het langst slapen lang, lang
Avdz T230 ADJ(vrij, dim, zonder ) het is hier stilletjes, stilletjes weggaan stil, stil
Vpte T301 WW(pv, tgw, ev ) ik kom, speel je, hij is, zwijg komen, spelen, zijn, zwijgen
Vptm T302 WW(pv, tgw, mv ) komen, spelen -, -
VptT T303 WW(pv, tgw, met-t ) jij komt, hij speelt, zwijgt komen, spelen, zwijgen
Vpve T304 WW(pv, verl, ev ) kwam, speelde komen, spelen
Vpvm T305 WW(pv, verl, mv ) kwamen, speelden komen, spelen
VpvT T306 WW(pv, verl, met-t ) kwaamt, gingt komen, gaan
Vpce T309 WW(pv, conj, ev ) kome, leve de koning komen, leven
Vipz T310 WW(inf, prenom,zonder ) de nog te lezen post lezen TODO
VipE T311 WW(inf, prenom,met-e ) een niet te weerstane verleiding weerstaan
Vinzz T312 WW(inf, nom, zonder,zonder-n) (het) spelen, (het) schaatsen todo
Vivz T314 WW(inf, vrij, zonder ) zal komen todo
Vvpz T315 WW(vd, prenom,zonder ) een verwittigd man, een gekregen paard verwittigen, krijgen
VvpE T316 WW(vd, prenom,met-e ) een getemde feeks temmen
VvnEz T317 WW(vd, nom, met-e, zonder-n) het geschrevene, een gekwetste todo, kwetsen
VvnEm T318 WW(vd, nom, met-e,mv-n ) gekwetsten, gedupeerden kwetsen, duperen
Vvvz T320 WW(vd, vrij, zonder ) is gekomen komen
Vopz T321 WW(od, prenom,zonder ) een slapend kind slapen
VopE T322 WW(od, prenom,met-e ) een piano spelende aap, slapende kinderen spelen, slapen
VonEz T323 WW(od, nom, met-e, zonder-n) het resterende, een klagende resteren, klagen
VonEm T324 WW(od, nom, met-e,mv-n ) de wachtenden wachten
Vovz T326 WW(od, vrij, zonder ) liep lachend weg, al doende leert men lachen, doen
Qhps T401 TW(hoofd,prenom,stan ) vier cijfers 4
Qhpb T402 TW(hoofd,prenom,bijz ) eens geestes zijn, te enen male 1
Qhnzb T403 TW(hoofd,nom, zonder-n,basis) er is er een ontsnapt 1
Qhnmb T404 TW(hoofd,nom, mv-n, basis) met z’n vieren 4
Qhnzd T405 TW(hoofd,nom, zonder-n,dim ) er is er eentje ontsnapt, op z’n eentje 1
Qhnmd T406 TW(hoofd,nom, mv-n, dim ) met z’n tweetjes 2
Qhv T407 TW(hoofd,vrij ) veertig worden, honderd rijden, hoeveel sneller 40, 100, ?todo
Qrps T408 TW(rang, prenom,stan ) de vierde man 4
Qrpb T409 TW(rang, prenom,bijz ) te elfder ure 11
Qrnz T410 TW(rang, nom, zonder-n ) het eerste, (de) vierde eindigen, Karel de Vijfde 1, 4, 5
Qrnm T411 TW(rang, nom, mv-n ) de eersten, iets aan derden verkopen 1, 3
Oppnv1e T501a VNW(pers, pron,nomin,vol, 1, ev ) ik -
Oppnn1e T501b VNW(pers, pron,nomin,nadr,1, ev ) ikzelf, ikke ik
Oppnr1e T501c VNW(pers, pron,nomin,red, 1, ev ) ’k ik
Oppnv1m T501d VNW(pers, pron,nomin,vol, 1, mv ) wij -
Oppnn1m T501e VNW(pers, pron,nomin,nadr,1, mv ) wijzelf wij
Oppnr1m T501f VNW(pers, pron,nomin,red, 1, mv ) we wij
Oppnv2e T501g VNW(pers, pron,nomin,vol, 2v,ev ) jij -
Oppnn2e T501h VNW(pers, pron,nomin,nadr,2v,ev ) jijzelf jij
Oppnr2e T501i VNW(pers, pron,nomin,red, 2v,ev ) je jij
Oppnv2 U501j VNW(pers, pron,nomin,vol, 2b,GETAL ) u jij?
Oppnn2 U501k VNW(pers, pron,nomin,nadr,2b,GETAL ) uzelf todo
Oppnv2 U501l VNW(pers, pron,nomin,vol, 2, GETAL ) gij todo
Oppnn2 U501m VNW(pers, pron,nomin,nadr,2, GETAL ) gijzelf todo
Oppnr2 U501n VNW(pers, pron,nomin,red, 2, GETAL ) ge todo
Oppnv3em U501o VNW(pers, pron,nomin,vol, 3, ev, masc) hij -
Oppnn3em T501p VNW(pers, pron,nomin,nadr,3m,ev, masc) hijzelf hij
Oppnr3em U501q VNW(pers, pron,nomin,red, 3, ev, masc) ie hij
Oppnr3em U501r VNW(pers, pron,nomin,red, 3P,ev, masc) men todo
Oppnv3ef T501s VNW(pers, pron,nomin,vol, 3v,ev, fem ) zij -
Oppnn3ef T501t VNW(pers, pron,nomin,nadr,3v,ev, fem ) zijzelf zij
Oppnv3m U501u VNW(pers, pron,nomin,vol, 3P,mv ) zij todo
Oppnn3m U501v VNW(pers, pron,nomin,nadr,3P,mv ) zijzelf todo
Oppov2e T502a VNW(pers, pron,obl, vol, 2v,ev ) jou jij
Oppov3em U502b VNW(pers, pron,obl, vol, 3, ev, masc) hem hij
Oppon3em T502c VNW(pers, pron,obl, nadr,3m,ev, masc) hemzelf hij
Oppor3em U502d VNW(pers, pron,obl, red, 3, ev, masc) ’m hij
Oppov3gf U502e VNW(pers, pron,obl, vol, 3, GETAL,fem ) haar zij
Oppor3gf U502f VNW(pers, pron,obl, nadr,3v,GETAL,fem ) haarzelf zij
Oppor3gf U502g VNW(pers, pron,obl, red, 3v,GETAL,fem ) ’r, d’r zij
Oppov3m U502h VNW(pers, pron,obl, vol, 3P,mv ) hen, hun
Oppon3m U502i VNW(pers, pron,obl, nadr,3P,mv ) henzelf, hunzelf
Oppsn2m U503a VNW(pers, pron,STAN, nadr,2v,mv ) jullie todo
Oppsr3eo U503b VNW(pers, pron,STAN, red, 3, ev, onz ) het, ’t todo
Oppsr3ef U503c VNW(pers, pron,STAN, red, 3, ev, fem ) ze zij
Oppsr3m U503d VNW(pers, pron,STAN, red, 3, mv ) ze todo
Oppgv1e T504a VNW(pers, pron,gen, vol, 1, ev ) mijns gelijke, gedenk mijner ik
Oppgv1m T504b VNW(pers, pron,gen, vol, 1, mv ) ons gelijke, velen onzer todo
Oppgv2g T504c VNW(pers, pron,gen, vol, 2, GETAL) uws gelijke, wie uwer todo
Oppgv3e T504d VNW(pers, pron,gen, vol, 3m,ev ) zijns gelijke, zijner hij
Oppgv3g T504e VNW(pers, pron,gen, vol, 3v,GETAL) haarsgelijke, harer zij
Oppgv3m T504f VNW(pers, pron,gen, vol, 3P,mv ) huns gelijke, een hunner todo
OPpov1e T505a VNW(PR, pron,obl, vol, 1, ev ) mij ik
OPpon1e T505b VNW(PR, pron,obl, nadr,1, ev ) mezelf, mijzelf ik
OPpor1e T505c VNW(PR, pron,obl, red, 1, ev ) me ik
OPpov1m T505d VNW(PR, pron,obl, vol, 1, mv ) ons
OPpon1m T505e VNW(PR, pron,obl, nadr,1, mv ) onszelf
OPpor2g T505f VNW(PR, pron,obl, red, 2v,GETAL) je jij
OPpon2g T505g VNW(PR, pron,obl, nadr,2v,GETAL) jezelf jij
OPpov2g T505h VNW(PR, pron,obl, vol, 2, GETAL) u
OPpon2g T505i VNW(PR, pron,obl, nadr,2, GETAL) uzelf
Orpor3g T506a VNW(refl, pron,obl, red, 3,GETAL) zich
Orpon3g T506b VNW(refl, pron,obl, nadr,3,GETAL) zichzelf
ORpovpm T507a VNW(recip,pron,obl, vol, persoon,mv) elkaar, mekaar, elkander
ORpgvpm T508a VNW(recip,pron,gen, vol, persoon,mv) elkaars, mekaars, elkanders
Obdsv1.. T509a VNW(bez, det, stan, vol, 1,ev, prenom,zonder,agr) mijn paard(en) ik
Obdsv T509b VNW(bez, det, stan, vol, 1, ev, prenom,met-e, rest) mijne heren ik
Obdsr T509c VNW(bez, det, stan, red, 1, ev, prenom,zonder,agr ) m’n paard(en) ik
Obdsv T509d VNW(bez, det, stan, vol, 1, mv, prenom,zonder,evon) ons paard
Obdsv T509e VNW(bez, det, stan, vol, 1, mv, prenom,met-e, rest) onze paarden
Obdsv T509f VNW(bez, det, stan, vol, 2, GETAL,prenom,zonder,agr ) uw paard(en)
Obdsv T509g VNW(bez, det, stan, vol, 2, GETAL,prenom,met-e, rest) uwe heiligheid
Obdsv T509h VNW(bez, det, stan, vol, 2v,ev, prenom,zonder,agr ) jouw paard(en) jij
Obdsr T509i VNW(bez, det, stan, red, 2v,ev, prenom,zonder,agr ) je paard(en) jij
Obdsn T509j VNW(bez, det, stan, nadr,2v,mv, prenom,zonder,agr ) jullie paard(en)
Obdsv T509k VNW(bez, det, stan, vol, 3, ev, prenom,zonder,agr ) zijn paard(en), haar kind
Obdsv T509l VNW(bez, det, stan, vol, 3m,ev, prenom,met-e, rest) zijne excellentie
Obdsv T509m VNW(bez, det, stan, vol, 3v,ev, prenom,met-e, rest) hare majesteit
Obdsr T509n VNW(bez, det, stan, red, 3, ev, prenom,zonder,agr ) z’n paard hij
Obdsv T509o VNW(bez, det, stan, vol, 3, mv, prenom,zonder,agr ) hun paarden
Obdsv T509p VNW(bez, det, stan, vol, 3P,mv, prenom,met-e, rest) hunne
Obdsr T509q VNW(bez, det, stan, red, 3, GETAL,prenom,zonder,agr ) ’r paard, d’r paard
Obdgv T510a VNW(bez, det, gen, vol, 1, ev, prenom,zonder,evmo) mijns inzien ik
Obdg T510b VNW(bez,det,gen,vol,1,ev,prenom,met-e,rest3) een mijner vrienden ik
Obdg T510c VNW(bez,det,gen,vol,1,mv,prenom,met-e,evmo) onzes inziens
Obdg T510d VNW(bez,det,gen,vol,1,mv,prenom,met-e,rest3) een onzer vrienden
Obdg T510e VNW(bez,det,gen,vol,2,getal,prenom,zonder,evmo) uws
Obdg T510f VNW(bez,det,gen,vol,2,getal,prenom,met-e,rest3) een uwer vrienden
Obdg T510g VNW(bez,det,gen,vol,2v,ev,prenom,met-e,rest3) een jouwer vrienden
Obdg T510h VNW(bez,det,gen,vol,3,ev,prenom,zonder,evmo) zijns inziens
Obdg T510i VNW(bez,det,gen,vol,3,ev,prenom,met-e,rest3) een zijner vrienden
Obdg T510j VNW(bez,det,gen,vol,3v,ev,prenom,zonder,evmo) haars inzien
Obdg T510k VNW(bez,det,gen,vol,3v,ev,prenom,met-e,rest3) een harer vrienden
Obdg T510l VNW(bez,det,gen,vol,3p,mv,prenom,zonder,evmo) huns inziens
Obdg T510m VNW(bez,det,gen,vol,3p,mv,prenom,met-e,rest3) een hunner vrienden
Obdg T511a VNW(bez,det,dat,vol,1,ev,prenom,met-e,evmo) te mijnen huize
Obdg T511b VNW(bez,det,dat,vol,1,ev,prenom,met-e,evf) te mijner ere ik
Obdg T511c VNW(bez,det,dat,vol,1,mv,prenom,met-e,evmo) te onzen behoeve
Obdg T511d VNW(bez,det,dat,vol,1,mv,prenom,met-e,evf) te onzer ere
Obdg T511e VNW(bez,det,dat,vol,2,getal,prenom,met-e,evmo) te uwen behoeve
Obdg T511f VNW(bez,det,dat,vol,2,getal,prenom,met-e,evf) te uwer ere
Obdg T511g VNW(bez,det,dat,vol,2v,ev,prenom,met-e,evf) te jouwer nagedachtenis
Obdg T511h VNW(bez,det,dat,vol,3,ev,prenom,met-e,evmo) zijnen
Obdg T511i VNW(bez,det,dat,vol,3,ev,prenom,met-e,evf) te zijner tijd
Obdg T511j VNW(bez,det,dat,vol,3v,ev,prenom,met-e,evmo) haren
Obdg T511k VNW(bez,det,dat,vol,3v,ev,prenom,met-e,evf) te harer ere
Obdg T511l VNW(bez,det,dat,vol,3p,mv,prenom,met-e,evmo) hunnen
Obdg T511m VNW(bez,det,dat,vol,3p,mv,prenom,met-e,evf) te hunner ere
Obdg T512h VNW(bez,det,stan,vol,1,ev,nom,met-e,zonder-n) het mijne ik
Obdg T512i VNW(bez,det,stan,vol,1,mv,nom,met-e,zonder-n) de onze
Obdg T512j VNW(bez,det,stan,vol,2,getal,nom,met-e,zonder-n) het uwe
Obdg T512k VNW(bez,det,stan,vol,2v,ev,nom,met-e,zonder-n) de jouwe
... ...
Oogsvzc T548c VNW(onbep,grad,stan, vrij,zonder, comp) minder werken, meer slapen
Dbse T601 LID(bep, stan,evon ) het kind, in ’t geniep -
Dbsr T602 LID(bep, stan,rest ) de hond(en), de kinderen -
Dbge T603 LID(bep, gen, evmo ) des duivels, ’s avonds de
DbgR U604 LID(bep, gen, REST3) der Nederlandse taal, der Belgen de
Dbde T605 LID(bep, dat, evmo ) op den duur, om den brode de
Dbde T606 LID(bep, dat, evf ) in der minne de
Dbdm T607 LID(bep, dat, mv ) die in den hemelen zijt de
DosA U608 LID(onbep,stan,AGR ) een kind, een mensen dat er waren -
Dose T609 LID(onbep,stan,evf ) de kracht ener vrouw een
Pi T701 VZ(init ) met een lepeltje, met Jan in het hospitaal, met zo te roepen -
Pf T702 VZ(fin ) liep de trap af, bij de beesten af, speelt het bandje af -
Pv T703 VZ(versm) ten strijde, ten hoogste, ter plaatse -
Yn T801 VG(neven) Jan en Peter; en toen gebeurde het -
Yo T802 VG(onder) omdat ze zich niet goed voelt -
B T901 BW() gisteren, nu, niet, nog, al, hoe -
I T001 TSW() oei, amai, uh, hoera -
Nsd R101 N(soort,dial) bompa grootvader
Ned R102 N(eigen,dial) TODO todo
... ...
Sa T002 SPEC(afgebr ) uitge, binnen-
So T003 SPEC(onverst ) ggg (niet-talige uiting), xxx (niet verstaan), Xxx (niet verstane naam) -
Sv T004 SPEC(vreemd ) whatever, ad, hoc, wishful, thinking, al, dente
Sd T005 SPEC(deeleigen) Den, Haag, New, York Den Haag, Den Haag, New York, New York
Sm T006 SPEC(meta ) (het woord) homosexueel todo
Sa T008 SPEC(achter ) voor achtergrondgeluid -
Sc T009 SPEC(comment ) voor commentaren -
L T007 LET()

agr
rest3
stan
getal
3p
3
vb
2
3
persoon
genus

Voor gebruik van postags

Voor grammaticacontrole met LanguageTool en andere toekomstige toepassingen is het nodig om fijnmazigere tags te kunnen gebruiken.

EINDE NIEUWE VERSIE

Formaat

Het formaat voor woordcategorieën dat hier wordt beschreven is alleen bedoeld als uitwisselformaat. Het betreft steeds een bestand met per regel een woord met daaraan verschillende sets van woordcategorieën gekoppeld. Deze kunnen gebruikt woorden in grammaticaregels van bijvoorbeeld LanguageTool.

Het formaat van eenvoudig gebruik met één set van woordcategorieën is:

woord1:categorie1,categorie2

Voorbeelden zijn:

tafel:noun;singular
werken:verb;infinitive

Als een woord meerdere betekenissen heeft worden er meerdere sets woordcategorieën gebruikt. Indien verschillende betekenissen resulteren in dezelfde set woordcategorieën dan wordt deze set maar een keer opgegeven. Het formaat is:

woord2:categorie3,categorie4;categorie5,categorie6

Wat de betekenis(sen) zijn die bij de verschillende sets van categorieën horen wordt momenteel niet vermeld.

Voorbeelden zijn:

lopen:noun,plural;verb;infinitive
boeken:noun,plural;verb;infinitive

In dit formaat is geen ruimte om betekenis op te slaan. Dat is niet nodig voor de toepassing en met meerdere betekenissen voor eenzelfde set categorieën zou dat onnodig lange strings geven.

Woordcategorieën

De woordcategorieën zijn afkomstig uit POS-tag definities uit ISOcat https://catalog.clarin.eu/isocat/rest/dc/1345 maar gebruiken ook andere definities uit ISOcat en een aantal extra categorieën die speciaal voor Nederlands zijn ontworpen. Van deze laatste groep zal gepoogd worden deze in ISOcat opgenomen te laten worden.

Categorieën zijn zelf te ordenen in een structuur en kunnen parents of children hebben. Volgens het idee van "convention over configuration" zullen alleen de meest specifieke children genoemd worden. Alle parents die hierdoor geïmpliceerd worden kunnen door middel van een expansiescript worden toegevoegd als dat het gebruik in LanguageTool bevorderd. Een voobeelden zijn:

ademen:infinitive
zich:reflexivePersonalPronoun,singular
stationnetjes:diminitiveNoun,countableNoun,plural

die in geëxpandeerde vorm er zo uitzien:

ademen:verb,infinitive
zich:pronoun,personalPronoun,reflexivePersonalPronoun,singular
stationnetjes:noun,diminitiveNoun,countrableNoun,plural

Want infinitive -> verb, reflexivePersonalPronoun -> personalPronoun, personalPronoun -> pronoun en diminitiveNoun -> noun expanderen op deze manier. Dit zijn alle waarden voor partOfSpeach. Let op dat countebleNoun (een waarde voor countability), plural en singular (beide waarden voor grammaticalNumber) tot niets exapanderen. Dit komt door de structuur van ISOcat die gerespecteerd wordt. In de ongeëxpandeerde vorm mogen al expansies plaats hebben gevonden. Het expansiescript dient hier rekening mee te houden. Dit alles wordt hieronder uitgebreid uitgelegd.

Zelfstandig naamwoorden

TODO

Werkwoorden

TODO

Genus

De volgende mogelijkheden bestaan om geslacht aan te duiden van zelfstandige naamwoorden:

tag omschrijving voorbeelden
M mannelijk (de) de overdaad, de deksel, het taaitaai, de man, de mannen, de vader, de koning, de raad
V vrouwelijk (de) de overdaad, de vrouw, de vrouwen, de vereniging, de boot, de VN, de Verenigde Naties, de regering
O onzijdig (het) het deksel, het taaitaai, het boek, het kind, het bestuur

Let op: Het is mogelijk dat één woord meerdere geslachten kent. Voorbeelden zijn: overdaad, bank, kast, naald, pijp, stad, rivier, maan, ster, zieke, blinde, betrokkene, gewonde, baby, deugniet, arts, babbelkous

Zie ook:

Getal

tag omschrijving voorbeelden
EV enkelvoud (telbaar) man (één man, twee mannen), boek (één boek, twee boeken), kind, ruimte
MV meervoud (telbaar) mannen (één man, twee mannen), boeken (één boek, twee boeken), kinderen, ruimten/*ruimtes*, dogmata/*dogma's*
ST singulare tantum (niet-telbaat, kenmerken van enkelvoud) griep, eigennamen: Jan, de Dordogne; stofnamen: lucht, goud, wijn (de meervoudsvorm wijnen wordt geaccepteerd als wijnsoorten of wijnflessen worden bedoeld); abstracte begrippen: informatie, huiswerk, letterkunde, muziek, heelal; enkele verzamelwoorden: vastgoed, have, nageslacht
PT plurale tantum (niet-telbaar, kenmerken van meervoud) organen: hersenen, ingewanden, glia; ziekten: mazelen, pokken, waterpokken, financieel en zakelijk: financiën, activa en passiva, onkosten, kosten, bescheiden, paperassen, notulen, auteurs-, in- & uitvoerrechten; groepen zoals volkeren en volkerengroepen: Roma, Sinti, Inuit, taliban, illuminati; geografische eigennamen: de Tropen, de *Azoren, de Balearen; gebergten: de Alpen, de Dolomieten; enkele aanduidingen van perioden: de middeleeuwen, de kinderjaren, de wittebroodsweken; enkele bestuurscollectieven: de Staten-Generaal, Provinciale Staten, Gedeputeerde Staten

Let op: Woorden kunnen meer dan een meervoudsvorm hebben, zie voorbeelden. Voor homoniemen kan afhankelijk van de betekenis het meervoud van een enkelvoud verschillen en vice versa. Voorbeelden zijn kras - krasse (krassen op het tafelblad, de krassen onder de bejaarden), dom - domme (de dommen van Keulen en Aken, het geluk is met de dommen), rib - ribbe (een por tussen je ribben, de ribben van een kubus), dol - dolle (de riemen zaten in de dollen, ze gingen als dollen tekeer). Zie Wikipedia voor uitzonderingen van met namen singulare tantum en plurale tantum.

Zie ook:

POS-tags voor eigennamen

De volgende POS-tags bestaan voor eigennamen:

tag omschrijving voorbeelden
T109 N(eigen,ev,basis,zijd,stan) de Noordzee, de Kemmelberg, Karel
T110 N(eigen,ev,basis,onz,stan) het Hageland, het Nederlands
T111 N(eigen,ev,dim,onz,stan) het slimme Kareltje
T112 N(eigen,ev,basis,gen) des Heren, Hagelands trots
T113 N(eigen,ev,dim,gen) Kareltjes fiets
T114 N(eigen,ev,basis,dat) wat den Here toekomt
T115 N(eigen,mv,basis) de Ardennen, de Middeleeuwen
T116 N(eigen,mv,dim) de Maatjes
U117 N(soort,ev,basis,genus,stan) een riool, geen filter
U118 N(eigen,ev,basis,genus,stan) Linux, Esselte

Hierbij is:

eigen eigennaam
soort soortnaam
ev enkelvoud
mv meervoud
basis basiswoord
dim diminutief (verkleining van basiswoord)
zijd zijdig (de) mannelijk, vrouwelijk of mannelijk en vrouwelijk beide mogelijk
onz onzijdig (het)
genus onbekend of zijdig of onzijdig is of zijdig en onzijdig beide mogelijk
stan standaard
gen genitief (bezittelijke versie van basiswoord)
dat datief (basiswoord als meewerkend voorwerp)

Let op: Het is mogelijk dat één woord meerdere POS-tags heeft. <Voorbeeld geven>

Zie ook:

Onderverdeling eigennamen

Los van de POS-tags zijn de volgende categorieën zijn gedefinieerd voor eigennamen:

code omschrijving voorbeelden
N Nomen (zelfstandig naamwoord, substantief)
NE Eigennaam
NEA Antroponiem (persoonsnaam)
NEAV Voornaam Jan, Piet, René, Els, Miep-Mariette, Renée, Karel, Anne, Ding, Dinges, Jans, Piets, René's, Els', Miep-Mariette's, Renées, Karels, Annes, Dinges, Dinges', Jantje, Pietje, Renéetje, Elske, Kareltje, Dingetje, het slimme Kareltje, Jantjes, Pietjes, Renétjes, Elskes, Kareltjes, Dingetjes
NEAT Tussen- of voorvoegsel van 't, van den, della
NEAA Achternaam (familienaam) (met of zonder losstaand tussen- of voorvoegsel) (tussen- of voorvoegsel dat wel of geen hoofdletter heeft) (gecombineerd na huwelijk of geregistreerd partnerschap) Jansen, d'Ancona, van 't Schip, Van 't Schip. van der Schatte Olivier, Nassau-Oranje, Vandermolen, Van Dermolen, Van dermeulen, Smit-Kroes, ten Berge-van der Meulen
NEAF volledige persoonsnaam (Full name) Piet Jansen, Neelie Smit-Kroes, N. Smit-Kroes, B.A. Baracus, Bosco Albert "B. A." (Bad Attitude) Baracus, ir. Cornelis Lely, ir. C. Lely, A.F.T., Het Ding, Spiderman (deze laatste niet als voornaam)
NEAI Instantie (overheid) Tweede Kamer, Gemeente Utrecht, Verenigde Naties, VN
NEAN Non-profitorganisatie (vereniging, stichting, community) Rode Kruis, Stichting Wakker Dier, IJsselmeervogels
NEAB Bedrijfs/handelsnaam (ook als overheid meeste aandelen heeft) Philips, Sony, NS, Nederlandse Spoorwegen, Adobe, Ajax
NEAM Merk Philips, Philips', Sony, Adobe, Adobe's
NEAP Product/dienst/model/type Philipshave, Vaio, InDesign, Adobe InDesign, Polo, Focus
NET Toponiem (plaatsnaam)
NETH Hydroniem (waterloop: loop (beekje of gekanaliseerde stroom), spring (kleine beek), beek, kreek (oude zeearm), kanaal (water als vaarweg), maar (kanaal), rivier (brede stroom), stroom (brede kreek), kooi (eendenplas), poel (klein meer of spoelgat), wiel (stroomput), diep (lang meer), die (lang meer), braak (breed meer of boezem), gouw (breed meer of boezem), boezem (watergang), wijde (groot meer), wiede (meer), slenk (oude zeearm), meer, zee (ruim water), zeegat, golf, vaart (breder kanaal), weer (brede sloot), vliet (brede sloot), hoek, baai, bocht, polder, sluis, stuw, vuurtoren, plas (klein meer), plaat, gat, wad (geen eiland, zie NETP), gemaal, dijk, dam, wetering (brede sloot), tocht (breder water), wijk (veenkanaal), haven, ven (plas in veengebied), duiker, pier, zeestraat, oceaan, (ophaal)brug, geul, greppel (smal, soms droog), aquaduct, boothelling, overlaat, gracht (brede vaarweg), sloot (smal vaak nat), vijver, kade, wal) maar niet als straatnaam Kanaal, Oudegracht, Noordzee
NETS hodoniem (Straatnaam: weg, straat, steenweg, laan, allee, (verkeers)plein, (verkeers)knooppunt, erf, hoek, (spoor)brug, station, spoonlijn, (bus/tram)halte, viaduct, spoorweg, kabelbaan, snelweg, tunnel, fietspad, voetpad, wandelpad, veld, vliegveld) Oudegracht, Amsterdamsestraatweg, A12, Gouwespoorbrug, De Hef, Scheiteltunnel, Burgemeester Charles Rotsart de Hertainglaan, Gasselterboerveenschemond, Schiphol
NETO Oroniem (gebergte: duin, zandverstuiving, heuvel, berg, vlakte, vallei, dal, plateau, reliëf, keten, pas) Himalaya, Mount Everest, Sint-Pietersberg, Posbank, De Loonse en Drunense Duinen
NETP (grond)gebied (administratieve Plaatsnaam: continent, regio, land, unie, (schier)eiland, eilandengroep, provincie, gemeente, plaats, stad, deelraad, wijk, bos, heide, wei, vesting, oord, gehucht, dorp, streek, (militair) oefenterrein, schietbaan, natuurgebied, recreatiegebied, (recreatie)park, (industrie)terrein, begraafplaats) Europa, Nederland, Utrecht, Lunetten, Ottignies-Louvain-la-Neuve, Overijsselse Westerhaar-Vriezenveensewijk, "Grijpskerke, Poppendamme, Buttinge, Zantvoort en Hoogelande", Ee
NETG Gebouw (huis, pand, bunker, flat, bungalow, paleis, loods, kantoorgebouw, elektriciteitscentrale, (wind)molen, museum, monument, aankomsthal, vertrekhal, wachtruimte, (ruimtelijk) object, kunstwerk) Rembrandtshuis

Let op: Het is mogelijk dat één woord meerdere woordcategorieën geeft. Een voorbeeld is Philips als bedrijf en merk.

Zie ook:

Woordcategorieën

merken wezens