Relevantie bronnen:
| Opzet VM | Opzet Harvesters | Installatie VM | Bestandsextensies |
Opzet VM¶
Het oogsten met de VM valt in de volgende stukken uiteen:
- het ophalen van de gewenste pagina's/documenten bij de servers.Dit kan op een aantal manieren.
- VM haalt een hele site op, en levert die dan ook aan
- voor: data bij elkaar
- tegen: relatief groot afbreekrisico)
- VM behandelt slechts de aangereikte links
- voor: gering afbreekrisico,
- tegen: data sterk gespreid, dus redundantie komt er pas uit bij server
- VM behandelt de aangereikte links en crawlt op basis daarvan eventueel verder
- voor: zelfstandig gedrag van client;
- nadeel: redundant ophalen van sites door meer clients => links tijdelijk blokkeren voor vorige harvesters en na x tijd recyclen
Ruud: Al met al brengt de spreiding mij ertoe om te concluderen dat er altijd redundantie zal zijn, tot de data op de server wordt verzameld.
Daarom ben ik voor optie 1 of 3.
- het vertalen van de documenten naar bruikbare input (formaatconversie)
- alle output in 1 formaat is wenselijk: of helemaal in utf8, of in ascii (iso###)
- UTF-8
- het opdelen van de teksten in zinnen
- Dit is niet zo eenvoudig. Hier en daar is het echt onmogelijk. Mijn huidige code is proefondervindelijk gegroeid.
- het versturen van de resultaten naar de server
- De zend- of ontvangst kant moet ervoor zorgen dat data van meer clients tegelijk kan worden ontvangen.
Basis OS¶
- Ubuntu JeOS
- virtualbox (later vmware-server, etc)
- werkgeheugen?
Ruud: Ik denk voor een deel van de controles flink wat intern geheugen voor php nodig te hebben.... * Bob: Dat valt volgens mij wel mee.
- harddisk kan groeien tot maximaal 2 GB.
Bob: Ik heb nu een disk van 1 gb, is toch wel te weinig
Benodigde pakketten¶
Document naar tekst:
- antiword
- html2text
(Of een ander goede converter die de html overzet naar bruikbare tekst, onder verwijering van alle non-content. Mogelijk extra is het onderkennen van aliena's, als hulp voor de detectie van zinnen)- controleren javascript, alternatief script van Ruud
- odt2txt
(Ook hier zit mogelijk een optie in om alinea's goed te herkennen.) - pdftotext (onderdeel van pdf-utils of pdfjam)
- misschien openoffice unoconverter
Programmatuur:¶
- PHP5
- PHP5-curl
- PHP5-tidy
- java (van sun)
- geen MySQL
Scripts¶
- updaten van server
- Installeren van packages
- conversie van bestanden
- teksten omzetten in zinnen
- foute zinnen verwijderen (Engels, Oudnederlands etc)
- zinnen naar server sturen
- tellen van woorden voor statistieken
- woorden naar server sturen
- nieuwe woorden tellen
Werkomgeving¶
- gebruiker "opentaal"
- locatie:
/home/opentaal/ /home/opentaal/config/ // info over vm etc: packages-list, updates /home/opentaal/cron/ // wanneer bepaalde scripts moeten draaien /home/opentaal/scripts/ // conversie scripts etc.