Project

General

Profile

Actions

Wijzigingen in Hunspell die voor ons worden gemaakt » History » Revision 4

« Previous | Revision 4/22 (diff) | Next »
Bart Knubben, 22-09-2010 21:13


Wijzigingen in Hunspell die voor ons worden gemaakt

Bug: checkcompoundfpattern does not detect flag-flag conflict.

CHECKCOMPOUNDPATTERN /A /B should prevent words with flag A to be combined with flag B, but it does not.

Bug: checkcompoundpattern does not work for compounding with more then 2 parts in all compounding methods

Bug: a word forbidden by the flag FORBIDDENWORD sometimes still gets suggested by compounding.

Feature request: Limit the wildness of offered alternatives by setting a max character distance (levenshtein?) and length. e.g.:

MAXDIFF (number)
MAXDIFF(min length) {max length} {max diff)

Feature request: Introduction of the flag for probably wrong (words actually correct, but more likely to be a mistake):

PROBABLEERROR

Though applications are not able to report this, this flag makes it possible to start preparing for it; a feature request to the applicattions will then follow.

By the way, this will also result in an API change.

Feature request: Have a flag on the last compounding part specifying the word has to start with uppercase.

(To force words ending with street to be uppercased)

Bug: the 2 compounding mechanisms interfere.

Bug: Keepcase not used in compounds

Bug: option -G reports words which are not input (bad for testing)

Feature request: add word border indicator to REP

Bug: REP with >1 _ fails

Bug: REP with non-letters in replacement fails

-----------------------------------
h1. Overzicht van onvolkomenheden in Hunspell voor Nederlandstalige spellingcontrole (brief d.d 18 augustus 2010)

Noodzakelijk
1. Een woord dat expliciet is gemarkeerd als fout, maar met via samenstellingsmechanisme wordt gegene­
reerd, wordt wel als fout gezien, maar toch als alternatief aangeboden. Correctie hiervan is essentieel.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970239&group_id=143754&atid=756395

2. Er is een optie om af te dwingen dat een woord precies zo moet worden geschreven als het is opgeno ­
men, bijvoorbeeld dvd niet als DVD. Woorden die zo gemarkeerd zijn, verliezen die markering helaas als
er wordt samengesteld, zodat DVD-schrijver wel wordt geaccepteerd.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999224&group_id=143754&atid=756395

h.2 Belangrijk
3. Als alternatieven worden soms heel vreemde samenstellingen aangeboden, die ook nog erg veel ver­
schillen met het foutieve woord. Dit kan beperkt worden door gegenereerde samenstellingen op 'verschil'
met het foutieve woord te beoordelen, gerelateerd aan de lengte van het woord. Dit resulteert in minder
verbazingwekkende en onzinnige woorden in de suggesties.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970237&group_id=143754&atid=756395

4. Er is een mechanisme aanwezig dat voorkomt dat twee opeenvolgende delen aan elkaar worden ge­
plakt. Zoals bijvoorbeeld woon+werk. Dit mechanisme kan allerlei fouten efficiënt voorkomen. Helaas werkt
het niet op alle delen van samenstellingen, maar alleen op de laatste twee, wat niet goed genoeg is voor
het Nederlands. Met deze aanpassing wordt het tegenhouden van foutieve samenstellingen robuuster.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970240&group_id=143754&atid=756395

5. Hetzelfde mechanisme zou ook voor woordsoorten moeten kunnen werken, bijvoorbeeld functie+functie,
met vlaggen. Ook die werkt niet. Met deze aanpassing wordt het tegenhouden van foutieve samenstellin­
gen robuuster.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970242&group_id=143754&atid=756395

6. Hunspell kent 2 samenstellingsmechanismen. De ene is meer geschikt voor regelmatige woorden als
getallen, de andere meer voor normale samenstellingen. Deze twee mechanismen verstoren elkaar echter.
Bij verbetering wordt het mogelijk om alle uitgeschreven getallen correct te ondersteunen en samenstellin ­
gen als 'dikkemannentest' succesvol te ondersteunen.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999225&group_id=143754&atid=756395

7. Een mogelijkheid om bij een samenstellend deel aan te geven dat het samengestelde woord met een
hoofdletter geschreven dient te worden. Dat maakt het mogelijk om bij straat, plein e.d. de juiste suggestie
te doen zonder alle straatnamen op te nemen.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999224&group_id=143754&atid=756395 en
http://sourceforge.net/tracker/?func=detail&aid=1689683&group_id=143754&atid=756398

8. Voor bepaalde letterreeksen kan een waarschijnlijke vervanger worden opgegeven, bijvoorbeeld enzo
=> en zo. Helaas wordt dan die spatie aangeboden bij elk woord waar enzo in zit (helaas dus ook bij boe ­
kenzolder), en niet bekend is. Het verzoek is om in de vervangingsregel de woordgrenzen aan te kunnen
geven, [enzo]=>[en zo]. Dit voorkomt Engelse ziekte.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3000055&group_id=143754&atid=756395

9. Hetzelfde mechanisme faalt met meer dan een spatie. Bepaalde foutief aan elkaar geschreven woord ­
groepen kunnen daarom niet succesvol opgesplitst worden aangeboden.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3018929&group_id=143754&atid=756395 en
https://sourceforge.net/tracker/?func=detail&aid=3008434&group_id=143754&atid=756398

10. Hetzelfde mechanisme kan niet omgaan met leestekens zoals de apostrof, zodat suggesties sturen op
dat punt onmogelijk is.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3018930&group_id=143754&atid=756395

Wenselijk
11. Het zou mooi zijn als de mogelijkheid bestond om een woord dat op zich correct is, maar waarschijnlijk
fout (kunne, verassen) zo te kunnen markeren. Hierdoor zou het mogelijk worden om ze in de applicaties
niet rood, maar oranje te markeren. Dat vraagt echter ook aanpassing aan de applicaties.
Meer info: http://sourceforge.net/tracker/?func=detail&aid=1808861&group_id=143754&atid=756398

Updated by Bart Knubben about 11 years ago · 4 revisions