Project

General

Profile

Coderingsproblemen

Tijdens het oogsten van paragrafen kunnen er allerlei coderingsproblemen optreden. Er kan een fout zitten bij de bron doordat een verkeerde karakterset of -codering is gebruikt of dat software de conversie van de ene naar de andere set niet goed ondersteund. Op zich zou dit allemaal geen probleem moeten zijn maar de werkelijkheid is helaas anders.

Invoer

Bepaalde besturingssystemen of applicaties met bepaalde instellingen kunnen automatisch de invoer van een gebruiker aanpassen. Gewenst of ongewenst kan er een aanhalingsteken of accent gecombineerd worden met een letter (a' -> á en "O -> Ö), er kan een ligatuur worden uit twee letters (ae -> æ en OE -> Œ), cijfers kunnen worden gecombineerd tot een breuk (1/2 -> ½ en 3/4 -> ¾) of ongebalanceerde leestekens kunnen worden vervangen door gebalanceerde versies("Hoi" -> “Hoi” en 's-Hertogenbosch -> ’s-hertogenbosch).

Karakter Unicode Unicodenaam Unicode Name Vervanging
IJ U+0132 IJ-ligatuur LATIN CAPITAL LIGATURE IJ 'I' + 'J'
ij U+0133 ij-ligatuur LATIN SMALL LIGATURE IJ 'i' + 'j'

Conversie

TODO compleet herschrijven

Onderstaande karakters worden in de database wel toegestaan maar om vervuiling van met teksten uit andere talen te voorkomen mag het oogstproces deze niet doorgelaten. Verantwoording hiervan zijn o.a. woorden als.

'Å', 'å', 'Ò', 'ò', 'Ø', 'ø', 'Ñ', 'ñ', 

De letters 'Ø' en 'ø' komen alleen voor in BLØF en høken en zijn daarom te mager om toe te laten. Letters met een hacek worden normaal gesproken zonder hacek geschreven dus die letters worden ook niet geaccepteerd.)

De volgende translaties moeten uitgevoerd worden op invoer van woorden uit Nederlandse teksten:

niet-ondersteund karakter beschrijving bedoeld als ondersteund karakter
'’' apostrof apostrof '\''

De volgende translaties kunnen uitgevoerd worden op invoer van woorden uit Nederlandse teksten om te kijken of ze matchen op bekende woorden:

niet-ondersteund karakter beschrijving bedoeld als ondersteund karakter
'Ÿ' IJ-ligatuur IJ 'I' + 'J'
'ÿ' IJ-ligatuur ij 'i' + 'j'
'Œ' OE-ligatuur OE 'O' + 'E'
'œ' oe-ligatuur oe 'o' + 'e'
'Æ' AE-ligatuur AE 'A' + 'E'
'æ' ae-ligatuur ae 'a' + 'e'
'Ì' uitspraakteken Í 'Í'
'ì' uitspraakteken í 'í'
'Ò' uitspraakteken Ó 'Ó'
'ò' uitspraakteken ó 'ó'
'Ù' uitspraakteken Ú 'Ú'
'ù' uitspraakteken ú 'ú'
'`' back quote apostrof '\''
'´' forward quote apostrof '\''
'‘' single quote open apostrof '\''
'’' single quote close apostrof '\''
'ß' ss- of sz-ligatuur ss 's' + 's'
U+1e9e SS- of SZ-ligatuur SS 'S' + 'S'
U+017f lange-s s 's'

Reden van bovenstaande is dat meeste lettertypes deze tekens niet ondersteunen en we binnen OpenTaal een beperkt en eenduidige reeks karakters willen gebruiken.

Zie ook

Bronnen

Gebruikte bronnen zijn: