Het detecteren van zinnen¶
Het vinden van zinnen lijkt eenvoudig, maar is het niet.
Meestal eindigen ze op een punt, uitroepteken of vraagteken. Maar niet elke punt, vraagteken of uitroepteken is een einde van een zijn. Voorbeeld:
Ik zag prof. dr. ir. W.A. Janssen lopen (toch?) op straat.
Het algoritme:- speciale grapjes als (!) en (!) verwijderen
- Dubbele regeleinden => markeren als zinseinde
- enkele regeleinden omzetten in een spatie
- dubbele spaties verwijderen tot enkele
- punt spatie markeren als .eindezin
- voor alle bekende afkortingen afkorting+eindezin vervangen door afkorting
In veel gevallen gaat dit goed. Niet alle.