Project

General

Profile

Taalherkenning

Het is belangrijk voor OpenTaal om van verzamelde teksten en geoogste zinnen te kunnen herkennen in welke taal ze zijn geschreven. Hierdoor kunnen we corpora en citaten selecteren die geschreven zijn in hedendaags Nederlands.

Criteria

Het liefst verzamelen we teksten sinds de spellingwijziging van 1 september 2006. Eventueel zijn teksten van na 1 augustus (NL) september (BE) 1995 en vanaf 1955 ook toegestaan. Teksten die vaak onterecht worden verzamelt in het oogstproces zijn geschreven in:

  • Afrikaans
  • Fries
  • Engels
  • Deens
  • verouderd Nederlands (voor 1955)
  • Vlaams (Pander: Ruud wat bedoel je hier precies mee?)

Process

OpenTaal gaat https://code.google.com/p/language-detection/ gebruiken maar wel met zelf getrainde taalmodules op eigen verzamelingen van corpora. Daarna zal via een interne webservice https://sf.own-it.nl/projects/opentaal/repository/show/Language%20Detect%20WS de geoogste zinnen worden geclassificeerd in welke taal ze zijn geschreven.

Corpora

Deens

Standaard odel uit language-detection.

Engels

Standaardmodel uit language-detection.

Afrikaans

Standaardmodel uit language-detection.

Fries

Standaardmodel uit language-detection, zie feature request https://code.google.com/p/language-detection/issues/detail?id=42 Eventueel extra corpora aan dit request toevoegen.

Verouderd Nederlands (voor 1955)

Zelf getraind model genaamd nl-old op volgende corpora:

Dit model is hier te vinden: https://sf.own-it.nl/projects/opentaal/repository/show/language-detect-nl-old

Hedendaags Nederlands

Zelf getraind model op volgende corpora:

Dit model kan een nieuw product van OpenTaal worden en gedeeld worden met project language-detection.