Project

General

Profile

New pattern generator

Specs:

- should generate patterns, compatible with current patgen
- should ', ‘ and - as word characters
- should not consider - as a hyphenation
- hyphenation char could be any non-word char (when specified in .tra)
- preferrably accepts utf-8 data
- preferrably accepts uppercase as well as lowercase (but patterns should default be only lower for compatibility)
- word length preferrably expanded to > 50 chars
- For word boundary level, it looks like we need a version only specifying hyphenations at the start of a word.
- Why not support numbers in a word? (hard because of pattern notation compatibility)

Voor overleg:
Afwijkende patronen zijn een uitdaging. Zou het onze patroondefinities als invoer kunnen nemen? Dan wordt het genereren van de afwijkende patronen wellicht ook mogelijk.
invoer ma[a|=]tje, maat=je, ru[ï|=i]ne, ver=ras=sing@s#pak=ket

Uitleg over de afwijkende patronen:

Het Nederlands kent klinkers die uit 2 letters bestaan, bijvoorbeeld oe. Dat spreek je dus als een klank uit. Gaat het om twee losse klanken, dan zijn er o-e (op grens van woorden : auto-eigendom) of het deelteken: eë geëerd.
Bij afbreken valt het scheidingsteken weg: o-e wordt o=e (waarbij = het afbreekteken van het font is, in de praktijk vaak ook een -) of a=a. In beide gevallen verandert er iets, als zie je dat in het eerste geval in de praktijk niet.
Onze notatie hervoor is Ka=na[ä|=a]n en ge[ë|=e]erd. Tussen haken het veranderende stuk, voor de pipe het deel voor afbreken, erna het deel na het afbreken.
Hetzelfde treedt op bij AOW['|=]er en woorden met een scherpe eindklank auto[o|=]tje, oma[a|=]tje, maar to=maat=je.

Old pattern generator

See http://tug.org/pipermail/tex-live/2011-November/030517.html

See also