Project

General

Profile

Harvesten van Jargon

Door de html-tags te gebruiken, is het mogelijk om bepaalde woorden te isoleren uit een tekst.

  • De tags definiĆ«ren gelijk een bepaalde rangorde van het woord in de rest van de tekst, dit gebeurt ook bij het crawlen door zoekmachines.
  • Woorden in tekst die in vet, cursief of in titelonderdelen staan (hoofdstuk, omschrijving plaatjes, titel tabel), zijn belangrijker dan woorden in platte tekst.
  • Ook woorden in opsommingen en tabellen hebben vaak een zwaardere weging dan platte tekst.

Analyse van voorbeeld tekst

woord totaal vet opsomming
demo 3 2 1
tekst 4 1 1
dit 1    
is 1    
een 1    
de 1    
kenmerken 1    
van 1    
deze 1    
zijn 1    

Conclusie: De woorden demo en tekst zijn duidelijk belangrijker dan de rest. Dit kan bijdragen aan het identificeren van jargon-specifieke woorden.

Voorbeeldtekst

Demo tekst
Dit is een demo tekst, de kenmerken van deze tekst zijn:
  • Demo
  • tekst