Grammaticacontrole¶
Installeren van LanguageTool¶
Bij deze een korte handleiding voor het bekijken en verbeteringen van degrammaticaregels.
In deze instructie wordt uitgegaan van:
- een linuxomgeving, desktop of server
- een standaard map /usr/local/share/languagetool
- download http://www.languagetool.org/download/LanguageTool-1.5.oxt
- maak de map aan
mkdir /usr/local/share/languagetool
- pak het bestand LanguageTool-1.5.oxt uit
unzip LanguageTool-1.5.oxt /usr/local/share/languagetool/
Bewerken van grammaticaregels¶
Het is belangrijk om eerst te kijken of er al aan een regel wordt gewerkt of dat na onderzoek is gebleken dat een regel (momenteel) niet wordt geïmplementeerd omdat deze na onderzoek te ingewikkeld bleek te zijn. Dit kan door te kijken op http://sf.own-it.nl/projects/opentaal/issues?query_id=28
Indien er een issue bestaat voor de desbetreffende regel, gebruik die om te communiceren voor de verbetering die je wil bijdragen. Bestaat er nog geen issue, maak er dan een aan via http://sf.own-it.nl/projects/opentaal/issues/new Voor elke nieuwe issue gaarne het volgende vermelden:- beknopte titel met goede en foute variant
- duidelijk foutief voorbeeld
- duidelijk goed voorbeeld
- bronnen die geraadpleegd kunnen worden
Let op, er kunnen vaak voorbeelden gevonden worden die volgens de ene regels goed zijn en volgens een andere regel fout en vice versa.
Als voorbeelden zie:De regels zijn te vinden in /usr/local/share/languagetool/rules/nl/grammar.xml.
Mogelijke edit software:
Tips¶
Bij deze wat tips voor het bewerken van de regels:- gebruik
regexp="yes"voor tokens met een regex - zet haakjes om een selectie in een regex, bv.
(de|het) - als het woord ook met een hoofdletter mag beginnen, bv. aan het begin van een zin, gebruik bv.
<token regexp="yes">(?iu)de|die</token> - om de exacte match te hergebruiken in de suggestion in de message, gebruik bv.
<match no="1"/>voor het eerste token
Testen van rules¶
Vanuit /usr/local/share/languagetool/ kan je de grammar.xml testen of deze valide is.
./testrules.sh nl
Er wordt een controle uitgevoerd van de eerder gemaakte grammar.xml
Grammaticacontrole vanaf command-line op een tekstbestand¶
basic¶
Volg bovenstaande eerste drie stappen en doe daarna:
@java -jar /usr/local/share/languagetool/LanguageTool.jar -l nl -m nl bestand.txt@
of
@cat bestand.txt|java -jar /usr/local/share/languagetool/LanguageTool.jar -l nl -m nl@
Hier staat -l voor de taal van de tekst en -m voor de moedertaal van de auteur. Met behulp van -d kunnen bepaalde regels tijdelijk worden uitgeschakend, bv.:
advanced¶
@java -jar /usr/local/share/languagetool/LanguageTool.jar -l nl -m nl -d WHITESPACE_RULE,EN_UNPAIRED_BRACKETS,COMMA_PARENTHESIS_WHITESPACE bestand.txt@
Als men tijdens het testen of ontwikkelen van regels meer achtergrondinformatie wil zien over welke regels worden toegepast en welke woordtypes worden herkent, gebruik de optie -v en gebruik de optie --api voor XML output.