Project

General

Profile

Hunspell

Nu Mozilla Firefox en Thunderbird, en niet in het minste OpenOffice.org gebruik maken van Hunspell als invulling van de spellingcontrole, is dat het aangewezen product voor OpenTaal om de spellingcontrole in te maken.

Hunspell kent veel mogelijkheden, maar de documentatie is nogal summier.

Vandaar dat zoveel mogelijk in de files zelf wordt gedocumenteerd. Dat lukt overigens bijna alleen maar in de .aff-file.

De aff-file is de stuur-file, oorspronkelijk voor het herkennen van affixen (prefixen en suffixen, ofwel voor- en achtervoegsels). Inmiddels kent het een woud aan parameters, en het is nog groeiende.

Op dit moment wordt slechts gebruik gemaakt van de meeste eenvoudige controle, namelijk elk woord wordt individueel opgenomen in het woordenboek (.dic), en de compressie met de affixen wordt toegepast.

Veelbelovend zijn de mogelijkheden om samengestelde woorden te 'programmeren'. Om geen wilde combinaties als fietstdeur goed te vinden, moet gebruik gemaakt worden van woordsamenstellingsregels. Zie woordsamenstellingen.

Zie:

http://hunspell.sourceforge.net/

https://en.wikipedia.org/wiki/Hunspell

http://abisource.com/projects/enchant/

https://en.wikipedia.org/wiki/Enchant_%28software%29

Upgrade hunspell software

De meeste Linux systemen bieden hunspell aan als een installeerbaar software pakket. Nu duurt het soms even duren voordat een nieuwe versie beschikbaar wordt gesteld als een degelijk pakket terwijl een nieuwe versie van hunspell essentieel is om een nieuwe woordenlijst te testen of te gebruiken. Hieronder wordt beschreven hoe voor gevorderde Linuxgebruikers men zelf de laatste versie van hunspell vanuit broncode kan installeren.

Waarschijnlijk heb je de pakketten libhunspell en hunspell geïnstalleerd. Hunspell laat zich makkelijk verwijderen met sudo dpkg -P hunspell maar hunspelllib niet omdat daar veel pakketten afhankelijk van zijn. Wat je kan doen is dpkg -L libhunspell-1... en die twee bestanden met de naam libhunspell-1....so... opzoeken en door middel van sudo mv deze even ergens te parkeren. Op deze manier verbreek je geen pakketafhankelijkheden.

Daarna kun de laatste versie van Hunspell downloaden en uitpakken via bv:
http://sourceforge.net/projects/hunspell/files/Hunspell/1.3.2/hunspell-1.3.2.tar.gz/download

Dit is te bouwen met ./configure --with-ui en make en vervolgens te installeren met sudo make install. Eventueel kun nog je een sudo ldconfig doen. Let
op, bewaar deze uitgepakte versie omdat je met sudo make uninstall alles weer netjes kan deinstalleren om vervolgens de twee bewaarde libhunspell-1....so... bestanden handmatig terug te zetten.

Controlleer of je na de sudo make install dit hebt:
/usr/lib/libhunspell-1.3.so.0 -> libhunspell-1.2.so.0
/usr/lib/libhunspell-1.2.so.0 -> /usr/local/lib/libhunspell-1.3.so.0
ofwel
/usr/lib/libhunspell-1.3.so.0 -> /usr/local/lib/libhunspell-1.3.so.0
/usr/lib/libhunspell-1.2.so.0 -> libhunspell-1.3.so.0
anders dat even handmatig fixen.

Het herinstalleren van hunspell uit software pakketten kan overigens met:
sudo apt-get --reinstall install hunspell libhunspell-1...

Van de pakketten hunspell-en-ca en hunspell-en-us hoef je je verder niets aan te trekken.

Upgrade hunspell spellingbestanden

Met dpkg -L myspell-nl zie je waar de bestanden staan voor de Nederlandse spellingcontrole, dat zijn:
/usr/share/hunspell/nl.aff
/usr/share/hunspell/nl.dic
Die kun je ook handmatig ergens parkeren en tijdelijk vervangen met de bestanden die je wil testen. Deze kunnen bijvoorbeeld afkomstig zijn uit
http://data.opentaal.org/opentaalbank/Downloads/210beta/mozilla.xpi
Let op dat bestandsnamen in Linux hoofdlettergevoelig zijn dus gebruik geen NL.aff of NL.dic

Let op, als je dus het pakket myspell-nl hebt geïnstalleerd, dan is het niet nodig om de add-on met Nederlandse spellingcontrole voor Firefox of Thunderbird te installeren.

Voeg je wel eens woorden toe die de spellingcontrole niet herkent, dan kun je die vinden in
/.config/enchant/nl.dic
/.config/enchant/nl_NL.dic
Bij elke nieuwe versie van de Nederlandse spellingcontrole is het goed om de inhoud van de bestanden in een nieuwe tekstbestand te zetten en dat tekstbestand, bijvoorbeeld met gedit nog eens aan de spellingcontrole te onderwerpen. De woorden die dan in ~/.config/enchant/* terecht komen zijn eventueel interessant op aan OpenTaal aan te bieden en tegelijkertijd heb je je persoonlijke woordenboek opgeschoond.

In geval van twijfel kun je je eigen resultaten vergelijken een de online installatie van Hunspell bij OpenTaal:
http://simonbr.xs4all.nl/hunspelldemo2.php

Nadruk

Woorden met nadruk zoals vóórkomen worden goedgekeurd maar worden bij spellingcontrole nooit als suggestie aangedragen. Dit geldt alleen voor uitspraaktekens voor twee klinkers na elkaar zoals óó. Het woord voorkómen wordt dus niet goedgekeurd. Deze instellingen staan in affix file van hunspell. Het zou goed zijn om deze een keer te herzien of ook éú en óói ook goedgekeurd worden..