Project

General

Profile

Relevantie bronnen:
table{border:0px solid black}.
Opzet VM Opzet Harvesters Installatie VM Bestandsextensies

Opzet VM

Het oogsten met de VM valt in de volgende stukken uiteen:

- het ophalen van de gewenste pagina's/documenten bij de servers.
Dit kan op een aantal manieren.
  1. VM haalt een hele site op, en levert die dan ook aan
    • voor: data bij elkaar
    • tegen: relatief groot afbreekrisico)
  2. VM behandelt slechts de aangereikte links
    • voor: gering afbreekrisico,
    • tegen: data sterk gespreid, dus redundantie komt er pas uit bij server
  3. VM behandelt de aangereikte links en crawlt op basis daarvan eventueel verder
    • voor: zelfstandig gedrag van client;
    • nadeel: redundant ophalen van sites door meer clients => links tijdelijk blokkeren voor vorige harvesters en na x tijd recyclen

Ruud: Al met al brengt de spreiding mij ertoe om te concluderen dat er altijd redundantie zal zijn, tot de data op de server wordt verzameld.
Daarom ben ik voor optie 1 of 3.

  • het vertalen van de documenten naar bruikbare input (formaatconversie)
    • alle output in 1 formaat is wenselijk: of helemaal in utf8, of in ascii (iso###)
    • UTF-8
  • het opdelen van de teksten in zinnen
    • Dit is niet zo eenvoudig. Hier en daar is het echt onmogelijk. Mijn huidige code is proefondervindelijk gegroeid.
  • het versturen van de resultaten naar de server
    • De zend- of ontvangst kant moet ervoor zorgen dat data van meer clients tegelijk kan worden ontvangen.

Basis OS

  • Ubuntu JeOS
  • virtualbox (later vmware-server, etc)
  • werkgeheugen?
Ruud: Ik denk voor een deel van de controles flink wat intern geheugen voor php nodig te hebben....
* Bob: Dat valt volgens mij wel mee.
  • harddisk kan groeien tot maximaal 2 GB.
Bob: Ik heb nu een disk van 1 gb, is toch wel te weinig

Benodigde pakketten

Document naar tekst:

  • antiword
  • html2text
    (Of een ander goede converter die de html overzet naar bruikbare tekst, onder verwijering van alle non-content. Mogelijk extra is het onderkennen van aliena's, als hulp voor de detectie van zinnen)
    • controleren javascript, alternatief script van Ruud
  • odt2txt
    (Ook hier zit mogelijk een optie in om alinea's goed te herkennen.)
  • pdftotext (onderdeel van pdf-utils of pdfjam)
  • misschien openoffice unoconverter

Programmatuur:

  • PHP5
    • PHP5-curl
    • PHP5-tidy
  • java (van sun)
  • geen MySQL

Scripts

  • updaten van server
    • Installeren van packages
  • conversie van bestanden
  • teksten omzetten in zinnen
  • foute zinnen verwijderen (Engels, Oudnederlands etc)
  • zinnen naar server sturen
  • tellen van woorden voor statistieken
  • woorden naar server sturen
  • nieuwe woorden tellen

Werkomgeving

  • gebruiker "opentaal"
  • locatie:
/home/opentaal/
/home/opentaal/config/     // info over vm etc: packages-list, updates
/home/opentaal/cron/       // wanneer bepaalde scripts moeten draaien
/home/opentaal/scripts/    // conversie scripts etc.

Overige informatie

Verloop van harvesten