Oogsten

Harvester

Allereerst kun je helpen met oogsten door documenten te zoeken in internet met de woorden die we zoeken met Harvester.
Harvester is een java-programmaatje, dus kan op Linux en Windows worden gebruikt.

zie http://data.opentaal.org/opentaalbank/Harvester/Info.php

distributedHarvester

Hiermee haal je echt de pagina's op en zet je ze om in tekst en zinnen.
Dit is pas echt het echte oogstwerk. Dit werkt overigens alleen op Linux, vanwege de tools.

Meedoen?

Start een terminalvenster en ga naar een directory waarin je het wilt installeren.

Doe dan:

sudo apt-get install php5-cli antiword xpdf-reader odt2txt php5-mbstring
mkdir distributedHarvester
cd distributedHarvester/
wget http://data.opentaal.org/opentaalbank/distributedHarvester/currentVersion.zip
unzip currentVersion.zip

start het oogsten met:

./runLinux

start het oogsten op een andere computer met:

nohup ./runLinux &

Dan kun je weer uitloggen en blijft het proces doorlopen. Als je real-time wil weten wat de output is, doe dan:

tail -f nohup.out

en met CTRL+C kom je weer terug in de shell.

Als je wilt, kun je zo meerdere mappen maken en in elke map het oogsten draaien.

Also available in: HTML TXT