Project

General

Profile

Oogsten

Harvester

Allereerst kun je helpen met oogsten door documenten te zoeken in internet met de woorden die we zoeken met Harvester.
Harvester is een java-programmaatje, dus kan op Linux en Windows worden gebruikt.

zie http://data.opentaal.org/opentaalbank/Harvester/Info.php

distributedHarvester

Hiermee haal je echt de pagina's op en zet je ze om in tekst en zinnen.
Dit is pas echt het echte oogstwerk. Dit werkt overigens alleen op Linux, vanwege de tools.

Meedoen?

Start een terminalvenster en ga naar een directory waarin je het wilt installeren.

Doe dan:

sudo apt-get install php5-cli antiword xpdf-reader odt2txt php5-mbstring
mkdir distributedHarvester
cd distributedHarvester/
wget http://data.opentaal.org/opentaalbank/distributedHarvester/currentVersion.zip
unzip currentVersion.zip

start het oogsten met:

./runLinux

start het oogsten op een andere computer met:

nohup ./runLinux &

Dan kun je weer uitloggen en blijft het proces doorlopen. Als je real-time wil weten wat de output is, doe dan:

tail -f nohup.out

en met CTRL+C kom je weer terug in de shell.

Als je wilt, kun je zo meerdere mappen maken en in elke map het oogsten draaien.

Statistieken

Statistieken omtrent bijdragen via Harvester zijn hier te vinden:

Deze worden gemaakt door scripts in ~/opentaalbank/Harvester/statistiek De namen die horen bij machines worden aan de hand van IP-addressen opgeslagen in het veld user_name in de tabel http://data.opentaal.org/docs/databasestructuur/opentaal/tables/contributions_machines.html in de database opentaal. Deze tabel dient aangepast te worden als er Onbekend in de bovengenoemde afbeeldingen staat.

Implementatie

De Harvester is gemaakt in Java en de distributedHarvester met PHP, command-line tools zoals antiword, pdf2html, etc. Belangrijk element hier in de Taalherkenning.

Oogsproces vanuit de OpenTaal server pauzeren.

Het oogstproces is vanuit de server te pauzeren door het bestand

opentaalbank/distributedHarvester/overzetten_02/transfer.sh

tijdelijke te herbenoemen tot bijvoorbeeld

opentaalbank/distributedHarvester/overzetten_02/tijdelijk_stilgezet_transfer.sh