Relevantie bronnen:
| Opzet VM | Opzet Harvesters | Installatie VM | Bestandsextensies |
Opzet Harvesters¶
Java-clients¶
Ophalen van woordid, woord en "google-count-identifier" bij de NTG-server- Ophalen van een zoekopdracht bij de OpenTaal-server
Doel van het aanleveren van een hele opdracht is het gemakkelijk aanpassen van de de verwerking van de telling als Google weer eens zijn pagina aanpast. - Het woord wordt gegoogled (over meerdere pagina's)
- Harvester haalt het google resultaat op
Doel van het tellen is het verkrijgen van tel-gegevens uit het grootste corpus wat er is: internet. - Harvester koppelt de tellingen en max x url's uit het google-resultaat terug naar de NTG-server
Doel van het melden van de links is het vinden van een aantal documenten met vermeldingen van dit (kennelijk zeldzame) woord.
VM-clients¶
- Haalt de url's op bij de NTG-server
- bron locatie: kranten, bestanden
- bron informatie: jargon?
- Download de desbetreffende webpagina's en andere documenten
- Extraheert en telt het aantal woorden
- op basis van locatie in tekst?
- Extraheert de zinnen
- VM stuurt de resulaten naar NTG-server
- NTG-server verzamelt de resultaten
meer info over VM-client zie Opzet VM