Project

General

Profile

Wijzigingen in Hunspell die voor ons worden gemaakt » History » Version 7

Bart Knubben, 22-09-2010 21:15

1 1 Ruud Baars
h1. Wijzigingen in Hunspell die voor ons worden gemaakt
2
3
h2. Bug: checkcompoundfpattern does not detect flag-flag conflict. 
4
5
CHECKCOMPOUNDPATTERN /A /B should prevent words with flag A to be combined with flag B, but it does not.
6
7
h2. Bug: checkcompoundpattern does not work for compounding with more then 2 parts in all compounding methods
8
9
h2. Bug: a word forbidden by the flag FORBIDDENWORD sometimes still gets suggested by compounding.
10
11
h2. Feature request: Limit the wildness of offered alternatives by setting a max character distance (levenshtein?) and length. e.g.:
12
13
    MAXDIFF (number)
14
    MAXDIFF(min length) {max length} {max diff)
15
16
h2. Feature request: Introduction of the flag for probably wrong (words actually correct, but more likely to be a mistake):
17
18 2 Ruud Baars
    PROBABLEERROR
19 1 Ruud Baars
20
Though applications are not able to report this, this flag makes it possible to start preparing for it; a feature request to the applicattions will then follow.
21
22
By the way, this will also result in an API change.
23
24
h2. Feature request: Have a flag on the last compounding part specifying the word has to start with uppercase. 
25
26
(To force words ending with street to be uppercased)
27
28
h2. Bug: the 2 compounding mechanisms interfere.
29
30
h2. Bug: Keepcase not used in compounds
31
32
h2. Bug: option -G reports words which are not input (bad for testing)
33
34
h2. Feature request: add word border indicator to REP
35
36
h2. Bug: REP with >1 _ fails
37
38
h2. Bug: REP with non-letters in replacement fails
39 3 Bart Knubben
40
-----------------------------------
41 7 Bart Knubben
h1. Overzicht van onvolkomenheden in Hunspell voor Nederlandstalige spellingcontrole (brief d.d 18 augustus 2010, van OpenTaal aan Nederlandse Taalunie)
42 4 Bart Knubben
43
h2. Noodzakelijk
44 5 Bart Knubben
45 3 Bart Knubben
1. Een woord dat expliciet is gemarkeerd als fout, maar met via samenstellingsmechanisme wordt gegene­
46
reerd, wordt wel als fout gezien, maar toch als alternatief aangeboden. Correctie hiervan is essentieel.
47 1 Ruud Baars
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970239&group_id=143754&atid=756395
48 4 Bart Knubben
49 3 Bart Knubben
2. Er is een optie om af te dwingen dat een woord precies zo moet worden geschreven als het is opgeno ­
50
men, bijvoorbeeld dvd niet als DVD. Woorden die zo gemarkeerd zijn, verliezen die markering helaas als
51 1 Ruud Baars
er wordt samengesteld, zodat DVD-schrijver wel wordt geaccepteerd.
52
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999224&group_id=143754&atid=756395
53 4 Bart Knubben
54
h.2 Belangrijk
55 6 Bart Knubben
56 3 Bart Knubben
3. Als alternatieven worden soms heel vreemde samenstellingen aangeboden, die ook nog erg veel ver­
57
schillen met het foutieve woord. Dit kan beperkt worden door gegenereerde samenstellingen op 'verschil'
58
met het foutieve woord te beoordelen, gerelateerd aan de lengte van het woord. Dit resulteert in minder
59 1 Ruud Baars
verbazingwekkende en onzinnige woorden in de suggesties.
60 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970237&group_id=143754&atid=756395
61 4 Bart Knubben
62 3 Bart Knubben
4. Er is een mechanisme aanwezig dat voorkomt dat twee opeenvolgende delen aan elkaar worden ge­
63
plakt. Zoals bijvoorbeeld woon+werk. Dit mechanisme kan allerlei fouten efficiënt voorkomen. Helaas werkt
64
het niet op alle delen van samenstellingen, maar alleen op de laatste twee, wat niet goed genoeg is voor
65 1 Ruud Baars
het Nederlands. Met deze aanpassing wordt het tegenhouden van foutieve samenstellingen robuuster.
66 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970240&group_id=143754&atid=756395
67 4 Bart Knubben
68 3 Bart Knubben
5. Hetzelfde mechanisme zou ook voor woordsoorten moeten kunnen werken, bijvoorbeeld functie+functie,
69
met vlaggen. Ook die werkt niet. Met deze aanpassing wordt het tegenhouden van foutieve samenstellin­
70 1 Ruud Baars
gen robuuster.
71 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2970242&group_id=143754&atid=756395
72 4 Bart Knubben
73 3 Bart Knubben
6. Hunspell kent 2 samenstellingsmechanismen. De ene is meer geschikt voor regelmatige woorden als
74
getallen, de andere meer voor normale samenstellingen. Deze twee mechanismen verstoren elkaar echter.
75
Bij verbetering wordt het mogelijk om alle uitgeschreven getallen correct te ondersteunen en samenstellin ­
76 1 Ruud Baars
gen als 'dikkemannentest' succesvol te ondersteunen.
77 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999225&group_id=143754&atid=756395
78 4 Bart Knubben
79 3 Bart Knubben
7. Een mogelijkheid om bij een samenstellend deel aan te geven dat het samengestelde woord met een
80
hoofdletter geschreven dient te worden. Dat maakt het mogelijk om bij straat, plein e.d. de juiste suggestie
81
te doen zonder alle straatnamen op te nemen.
82 1 Ruud Baars
Meer info: http://sourceforge.net/tracker/?func=detail&aid=2999224&group_id=143754&atid=756395 en
83 3 Bart Knubben
http://sourceforge.net/tracker/?func=detail&aid=1689683&group_id=143754&atid=756398
84 4 Bart Knubben
85 3 Bart Knubben
8. Voor bepaalde letterreeksen kan een waarschijnlijke vervanger worden opgegeven, bijvoorbeeld enzo
86
=> en zo. Helaas wordt dan die spatie aangeboden bij elk woord waar enzo in zit (helaas dus ook bij boe ­
87
kenzolder), en niet bekend is. Het verzoek is om in de vervangingsregel de woordgrenzen aan te kunnen
88 1 Ruud Baars
geven, [enzo]=>[en zo]. Dit voorkomt Engelse ziekte.
89 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3000055&group_id=143754&atid=756395
90 4 Bart Knubben
91 3 Bart Knubben
9. Hetzelfde mechanisme faalt met meer dan een spatie. Bepaalde foutief aan elkaar geschreven woord ­
92 1 Ruud Baars
groepen kunnen daarom niet succesvol opgesplitst worden aangeboden.
93 3 Bart Knubben
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3018929&group_id=143754&atid=756395 en
94
https://sourceforge.net/tracker/?func=detail&aid=3008434&group_id=143754&atid=756398
95 4 Bart Knubben
                                                                                               
96 1 Ruud Baars
10. Hetzelfde mechanisme kan niet omgaan met leestekens zoals de apostrof, zodat suggesties sturen op
97 3 Bart Knubben
dat punt onmogelijk is.
98
Meer info: http://sourceforge.net/tracker/?func=detail&aid=3018930&group_id=143754&atid=756395
99
100 4 Bart Knubben
h2. Wenselijk
101 6 Bart Knubben
102 3 Bart Knubben
11. Het zou mooi zijn als de mogelijkheid bestond om een woord dat op zich correct is, maar waarschijnlijk
103
fout (kunne, verassen) zo te kunnen markeren. Hierdoor zou het mogelijk worden om ze in de applicaties
104
niet rood, maar oranje te markeren. Dat vraagt echter ook aanpassing aan de applicaties.
105
Meer info: http://sourceforge.net/tracker/?func=detail&aid=1808861&group_id=143754&atid=756398