Project

General

Profile

Karakters

Woorden kunnen worden samengesteld uit de 26 letters uit het alfabet maar ook door andere karakters. Denk bijvoorbeeld alleen al maar aan het woord 's-Hertogenbosch. Om een eenduidige notatie te gebruiken heeft OpenTaal heeft een aantal keuzes gemaakt over welke karakters wel en niet door haar worden ondersteund. Afhankelijk van de toepassing zijn er verschillende overwegingen gemaakt. Deze worden hieronder een voor een besproken. Let op, overal wordt door OpenTaal de Unicodekarakterset in de UTF-8-codering gebruikt.

Woorden

Woorden die in de database zijn opgenomen voor het maken van de woordenlijst, spellingcontrole, afbreekpatronen en thesaurus, mogen alleen zijn samengesteld uit karakters van de volgende lijst. Deze lijst is gegroepeerd naar kleine letters, hoofdletters, letters met diakrieten, leestekens en cijfers. De verdere sortering is in deze lijst niet van belang en is naast alfabetische sortering vooral gedaan gebruiksfrequentie.

Karakter Unicode Unicodenaam Unicode Name Groep Voorbeelden
a U+0061 Latijnse kleine letter a LATIN SMALL LETTER A kleine letter
b U+0062 Latijnse kleine letter b LATIN SMALL LETTER B kleine letter
c U+0063 Latijnse kleine letter c LATIN SMALL LETTER C kleine letter
d U+0064 Latijnse kleine letter d LATIN SMALL LETTER D kleine letter
e U+0065 Latijnse kleine letter e LATIN SMALL LETTER E kleine letter
f U+0066 Latijnse kleine letter f LATIN SMALL LETTER F kleine letter
g U+0067 Latijnse kleine letter g LATIN SMALL LETTER G kleine letter
h U+0068 Latijnse kleine letter h LATIN SMALL LETTER H kleine letter
i U+0069 Latijnse kleine letter i LATIN SMALL LETTER I kleine letter
j U+006a Latijnse kleine letter j LATIN SMALL LETTER J kleine letter
k U+006b Latijnse kleine letter k LATIN SMALL LETTER K kleine letter
l U+006c Latijnse kleine letter l LATIN SMALL LETTER L kleine letter
m U+006d Latijnse kleine letter m LATIN SMALL LETTER M kleine letter
n U+006e Latijnse kleine letter n LATIN SMALL LETTER N kleine letter
o U+006f Latijnse kleine letter o LATIN SMALL LETTER O kleine letter
p U+0070 Latijnse kleine letter p LATIN SMALL LETTER P kleine letter
q U+0071 Latijnse kleine letter q LATIN SMALL LETTER Q kleine letter
r U+0072 Latijnse kleine letter r LATIN SMALL LETTER R kleine letter
s U+0073 Latijnse kleine letter s LATIN SMALL LETTER S kleine letter
t U+0074 Latijnse kleine letter t LATIN SMALL LETTER T kleine letter
u U+0075 Latijnse kleine letter u LATIN SMALL LETTER U kleine letter
v U+0076 Latijnse kleine letter v LATIN SMALL LETTER V kleine letter
w U+0077 Latijnse kleine letter w LATIN SMALL LETTER W kleine letter
x U+0078 Latijnse kleine letter x LATIN SMALL LETTER X kleine letter
y U+0079 Latijnse kleine letter y LATIN SMALL LETTER Y kleine letter
z U+007a Latijnse kleine letter z LATIN SMALL LETTER Z kleine letter
A U+0041 Latijnse hoofdletter a LATIN CAPITAL LETTER A hoofdletter
B U+0042 Latijnse hoofdletter b LATIN CAPITAL LETTER B hoofdletter
C U+0043 Latijnse hoofdletter c LATIN CAPITAL LETTER C hoofdletter
D U+0044 Latijnse hoofdletter d LATIN CAPITAL LETTER D hoofdletter
E U+0045 Latijnse hoofdletter e LATIN CAPITAL LETTER E hoofdletter
F U+0046 Latijnse hoofdletter f LATIN CAPITAL LETTER F hoofdletter
G U+0047 Latijnse hoofdletter g LATIN CAPITAL LETTER G hoofdletter
H U+0048 Latijnse hoofdletter h LATIN CAPITAL LETTER H hoofdletter
I U+0049 Latijnse hoofdletter i LATIN CAPITAL LETTER I hoofdletter
J U+004a Latijnse hoofdletter j LATIN CAPITAL LETTER J hoofdletter
K U+004b Latijnse hoofdletter k LATIN CAPITAL LETTER K hoofdletter
L U+004c Latijnse hoofdletter l LATIN CAPITAL LETTER L hoofdletter
M U+004d Latijnse hoofdletter m LATIN CAPITAL LETTER M hoofdletter
N U+004e Latijnse hoofdletter n LATIN CAPITAL LETTER N hoofdletter
O U+004f Latijnse hoofdletter o LATIN CAPITAL LETTER O hoofdletter
P U+0050 Latijnse hoofdletter p LATIN CAPITAL LETTER P hoofdletter
Q U+0051 Latijnse hoofdletter q LATIN CAPITAL LETTER Q hoofdletter
R U+0052 Latijnse hoofdletter r LATIN CAPITAL LETTER R hoofdletter
S U+0053 Latijnse hoofdletter s LATIN CAPITAL LETTER S hoofdletter
T U+0054 Latijnse hoofdletter t LATIN CAPITAL LETTER T hoofdletter
U U+0055 Latijnse hoofdletter u LATIN CAPITAL LETTER U hoofdletter
V U+0056 Latijnse hoofdletter v LATIN CAPITAL LETTER V hoofdletter
W U+0057 Latijnse hoofdletter w LATIN CAPITAL LETTER W hoofdletter
X U+0058 Latijnse hoofdletter x LATIN CAPITAL LETTER X hoofdletter
Y U+0059 Latijnse hoofdletter y LATIN CAPITAL LETTER Y hoofdletter
Z U+005a Latijnse hoofdletter z LATIN CAPITAL LETTER Z hoofdletter
ä U+00e4 LATIN SMALL LETTER A WITH DIAERESIS diakriet 23
á U+00e1 LATIN SMALL LETTER A WITH ACUTE diakriet 47
â U+00e2 LATIN SMALL LETTER A WITH CIRCUMFLEX diakriet 8
à U+00e0 LATIN SMALL LETTER A WITH GRAVE diakriet 27
å U+00e5 LATIN SMALL LETTER A WITH RING ABOVE diakriet 2: ångström, smörgåsbord
ç U+00e7 LATIN SMALL LETTER C WITH CEDILLA diakriet 56
ë U+00eb LATIN SMALL LETTER E WITH DIAERESIS diakriet ~2700
é U+00e9 LATIN SMALL LETTER E WITH ACUTE diakriet ~1000
ê U+00ea LATIN SMALL LETTER E WITH CIRCUMFLEX diakriet ~100
è U+00e8 LATIN SMALL LETTER E WITH GRAVE diakriet ~400
ï U+00ef LATIN SMALL LETTER I WITH DIAERESIS diakriet ~1000
í U+00ed LATIN SMALL LETTER I WITH ACUTE diakriet 17
î U+00ee LATIN SMALL LETTER I WITH CIRCUMFLEX diakriet 16
ì U+00ec LATIN SMALL LETTER I WITH GRAVE diakriet 1: Così
ñ U+00f1 LATIN SMALL LETTER N WITH TILDE diakriet 17: señor, piñata, doña, Iñaki
ö U+00f6 LATIN SMALL LETTER O WITH DIAERESIS diakriet ~350
ó U+00f3 LATIN SMALL LETTER O WITH ACUTE diakriet 45
ô U+00f4 LATIN SMALL LETTER O WITH CIRCUMFLEX diakriet 12
ò U+00f2 LATIN SMALL LETTER O WITH GRAVE diakriet 0: Bartòk
ø U+00f8 LATIN SMALL LETTER O WITH STROKE diakriet 0: Laan van Køge, høken
ü U+00fc LATIN SMALL LETTER U WITH DIAERESIS diakriet ~120
ú U+00fa LATIN SMALL LETTER U WITH ACUTE diakriet 15
û U+00fb LATIN SMALL LETTER U WITH CIRCUMFLEX diakriet 18
ù U+00f9 LATIN SMALL LETTER U WITH GRAVE diakriet 2: Meeùs, Gesù
Ä U+00c4 LATIN CAPITAL LETTER A WITH DIAERESIS diakriet 0
Á U+00c1 LATIN CAPITAL LETTER A WITH ACUTE diakriet 0
 U+00c2 LATIN CAPITAL LETTER A WITH CIRCUMFLEX diakriet 0
À U+00c0 LATIN CAPITAL LETTER A WITH GRAVE diakriet 0
Å U+00c5 LATIN CAPITAL LETTER A WITH RING ABOVE diakriet 3: Ålandseilanden, Åland, Å
Ç U+00c7 LATIN CAPITAL LETTER C WITH CEDILLA diakriet 0
Ë U+00cb LATIN CAPITAL LETTER E WITH DIAERESIS diakriet 0
É U+00c9 LATIN CAPITAL LETTER E WITH ACUTE diakriet 0
Ê U+00ca LATIN CAPITAL LETTER E WITH CIRCUMFLEX diakriet 0
È U+00c8 LATIN CAPITAL LETTER E WITH GRAVE diakriet 0
Ï U+00cf LATIN CAPITAL LETTER I WITH DIAERESIS diakriet 0
Í U+00cd LATIN CAPITAL LETTER I WITH ACUTE diakriet 0
Î U+00ce LATIN CAPITAL LETTER I WITH CIRCUMFLEX diakriet 0
Ì U+00cc LATIN CAPITAL LETTER I WITH GRAVE diakriet 0
Ñ U+00d1 LATIN CAPITAL LETTER N WITH TILDE diakriet 0: Ñusta
Ö U+00d6 LATIN CAPITAL LETTER O WITH DIAERESIS diakriet 0
Ó U+00d3 LATIN CAPITAL LETTER O WITH ACUTE diakriet 0
Ô U+00d4 LATIN CAPITAL LETTER O WITH CIRCUMFLEX diakriet 0
Ò U+00d2 LATIN CAPITAL LETTER O WITH GRAVE diakriet 0
Ø U+00d8 LATIN CAPITAL LETTER O WITH STROKE diakriet 0: BLØF
Ü U+00dc LATIN CAPITAL LETTER U WITH DIAERESIS diakriet 0
Ú U+00da LATIN CAPITAL LETTER U WITH ACUTE diakriet 0
Û U+00db LATIN CAPITAL LETTER U WITH CIRCUMFLEX diakriet 0
Ù U+00d9 LATIN CAPITAL LETTER U WITH GRAVE diakriet 0
- U+002d afbreekstreepje-minteken HYPHEN-MINUS leesteken ~6400: zee-egel, zwart-wit, ex-soldaat, voor- en nadelen, Noord-Brabant, EU-hulp, cd-opname, 3-jarig
' U+0027 apostrof APOSTROPHE leesteken ~4400: foto's, ME'er, ftp'de, Anna's, Claus', 's-Hertogenbosch, Sint-Job-in-'t-Goor, Jeanne d'Arc
U+0020 spatie SPACE leesteken ~2000: carte blanche, pro forma, Oude Pekela, Karel V, Witte Nijl
. U+002e punt FULL STOP leesteken ~300: o.a., dhr., St.-Eustatius, Annie M.G. Schmidt
+ U+002b plusteken PLUS SIGN leesteken 2: 65+-kaart, C++
0 U+0030 cijfer nul DIGIT ZERO cijfer ~260 in groep: 100-tal, 50-jarig
1 U+0031 cijfer één DIGIT ONE cijfer ~260 in groep: 1e, F-16
2 U+0032 cijfer twee DIGIT TWO cijfer ~260 in groep: B-52, NT2
3 U+0033 cijfer drie DIGIT THREE cijfer ~260 in groep: 3VO, mp3
4 U+0034 cijfer vier DIGIT FOUR cijfer ~260 in groep: A4, C14-methode
5 U+0035 cijfer vijf DIGIT FIVE cijfer ~260 in groep: H5N1, AT5
6 U+0036 cijfer zes DIGIT SIX cijfer ~260 in groep: D66, 06-nummer
7 U+0037 cijfer zeven DIGIT SEVEN cijfer ~260 in groep: 7-tal, 17-jarige
8 U+0038 cijfer acht DIGIT EIGHT cijfer ~260 in groep: 8-vormige, UTF-8
9 U+0039 cijfer negen DIGIT NINE cijfer ~260 in groep: 19e-eeuws, standje 69

In de programmeertaal Python ziet een tuple met alle mogelijke karakters die in een woord mogen voorkomen er als volgt uit.

(
u"a", u"b", u"c", u"d", u"e", u"f", u"g", u"h", u"j", u"i", u"k", u"l", u"m", 
u"n", u"o", u"p", u"q", u"r", u"s", u"t", u"u", u"v", u"w", u"x", u"y", u"z", 
u"A", u"B", u"C", u"D", u"E", u"F", u"G", u"H", u"I", u"J", u"K", u"L", u"M", 
u"N", u"O", u"P", u"Q", u"R", u"S", u"T", u"U", u"V", u"W", u"X", u"Y", u"Z", 
u"ä", u"á", u"â", u"à", u"å", u"ç", u"ë", u"é", u"ê", u"è", u"ï", u"í", u"î", 
u"ì", u"ñ", u"ö", u"ó", u"ô", u"ò", u"ø", u"ü", u"ú", u"û", u"ù", 
u"Ä", u"Á", u"Â", u"À", u"Å", u"Ç", u"Ë", u"É", u"Ê", u"È", u"Ï", u"Í", u"Î", 
u"Ì", u"Ñ", u"Ö", u"Ó", u"Ô", u"Ò", u"Ø", u"Ü", u"Ú", u"Û", u"Ù", 
u"-", u"'", u" ", u".", u"+", 
u"0", u"1", u"2", u"3", u"4", u"5", u"6", u"7", u"8", u"9", 
)

Een regex in Python voor een karakter in een woord ziet er zo uit (het minteken en de punt is geëscaped met een backslash).

r"[a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ0-9-' \.+]"

Voor toepassingen zoals spellingcontrole waar woorden van één letter niet van belang zijn en exotische eigennamen niet worden ondersteund kan worden voldaan met de volgende regex en tuple in Python.

r"[a-zA-Zäáâàåçëéêèïíîñöóôüúû0-9-' \.+]" 

(
u"a", u"b", u"c", u"d", u"e", u"f", u"g", u"h", u"j", u"i", u"k", u"l", u"m", 
u"n", u"o", u"p", u"q", u"r", u"s", u"t", u"u", u"v", u"w", u"x", u"y", u"z", 
u"A", u"B", u"C", u"D", u"E", u"F", u"G", u"H", u"I", u"J", u"K", u"L", u"M", 
u"N", u"O", u"P", u"Q", u"R", u"S", u"T", u"U", u"V", u"W", u"X", u"Y", u"Z", 
u"ä", u"á", u"â", u"à", u"å", u"ç", u"ë", u"é", u"ê", u"è", u"ï", u"í", u"î", 
u"ñ", u"ö", u"ó", u"ô", u"ü", u"ú", u"û",
u"-", u"'", u" ", u".", u"+", 
u"0", u"1", u"2", u"3", u"4", u"5", u"6", u"7", u"8", u"9", 
)

Een regex in Python voor een woord van één karakter ziet er zo uit.

r"[a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ]"

Een regex in Python voor een woord van twee karakters ziet er zo uit (maar kan nog sterker).

r"[a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ]
  [a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ0-9-'\.+]|
  [a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ0-9-'\.+]
  [a-zA-ZäáâàåçëéêèïíîìñöóôòøüúûùÄÁÂÀÅÇËÉÊÈÏÍÎÌÑÖÓÔÒØÜÚÛÙ]"

Deze regex kan worden uitgebreid voor woorden van drie en meer letters maar zal dan te lang worden om praktisch mee te kunnen werken.

Wetenschappelijke notaties

Wiskundige, natuurkundige, scheikundige en andere wetenschappelijke notaties worden niet ondersteund in de woordenlijst en daarom mogen de volgende karakters niet worden gebruikt. Deze mogen wel door applicaties zoals grammaticacontrole ter correctie worden aangeboden maar zullen dus geen deel uit maken van de woordencollectie. (Sommige karakters worden in dit document helaas niet correct getoond en zijn vervangen door een vraagteken. De werkelijke karakters kunnen aan de hand van hun Unicode teruggevonden worden.)

Karakter Unicode Unicodenaam Unicode Name Voorbeelden
/ U+002f solidus SOLIDUS km/u, m/s, I/O
° U+00b0 gradensymbool DEGREE SIGN °C, °F
² U+00b2 superscript twee SUPERSCRIPT TWO
³ U+00b3 superscript drie SUPERSCRIPT THREE
? U+2082 subscript twee SUPERSCRIPT TWO CO?-emissie, H?O-doorlaatbaar
? U+2082 subscript drie SUBSCRIPT THREE NO?-uitstoot, K?CO?-verwijdering
? U+207a superscript plus SUPERSCRIPT PLUS H?O?-ionen
? U+207b superscript min SUPERSCRIPT MINUS NO?¯-ion
± U+00b1 plusminusteken PLUS-MINUS SIGN ±10 graden (foutief)
× U+00d7 vermenigvuldigingsteken MULTIPLICATION SIGN lengte × breedte
? U+2264 kleiner en gelijk aan LESS-THAN OR EQUAL TO vervanging voor <=
? U+2265 groter en gelijk aan GREATER-THAN OR EQUAL TO vervanging voor >=
? U+0237 (gecombineerd met LATIN SMALL LETTER DOTLESS J zí?n (klemtoonteken op j)
U+0301 de volgende regel) COMBINING ACUTE ACCENT

Zie ook

Bronnen

Gebruikte bronnen zijn: