Project

General

Profile

Relevantie bronnen:
table{border:0px solid black}.
Opzet VM Opzet Harvesters Installatie VM Bestandsextensies

Opzet Harvesters

Java-clients

  1. Ophalen van woordid, woord en "google-count-identifier" bij de NTG-server
  2. Ophalen van een zoekopdracht bij de OpenTaal-server
    Doel van het aanleveren van een hele opdracht is het gemakkelijk aanpassen van de de verwerking van de telling als Google weer eens zijn pagina aanpast.
  3. Het woord wordt gegoogled (over meerdere pagina's)
  4. Harvester haalt het google resultaat op
    Doel van het tellen is het verkrijgen van tel-gegevens uit het grootste corpus wat er is: internet.
  5. Harvester koppelt de tellingen en max x url's uit het google-resultaat terug naar de NTG-server
    Doel van het melden van de links is het vinden van een aantal documenten met vermeldingen van dit (kennelijk zeldzame) woord.

VM-clients

  1. Haalt de url's op bij de NTG-server
    • bron locatie: kranten, bestanden
    • bron informatie: jargon?
  2. Download de desbetreffende webpagina's en andere documenten
  3. Extraheert en telt het aantal woorden
    • op basis van locatie in tekst?
  4. Extraheert de zinnen
  5. VM stuurt de resulaten naar NTG-server
  6. NTG-server verzamelt de resultaten

meer info over VM-client zie Opzet VM