Harvesten van Jargon¶
Door de html-tags te gebruiken, is het mogelijk om bepaalde woorden te isoleren uit een tekst.
- De tags definiƫren gelijk een bepaalde rangorde van het woord in de rest van de tekst, dit gebeurt ook bij het crawlen door zoekmachines.
- Woorden in tekst die in vet, cursief of in titelonderdelen staan (hoofdstuk, omschrijving plaatjes, titel tabel), zijn belangrijker dan woorden in platte tekst.
- Ook woorden in opsommingen en tabellen hebben vaak een zwaardere weging dan platte tekst.
Analyse van voorbeeld tekst¶
| woord | totaal | vet | opsomming |
| demo | 3 | 2 | 1 |
| tekst | 4 | 1 | 1 |
| dit | 1 | ||
| is | 1 | ||
| een | 1 | ||
| de | 1 | ||
| kenmerken | 1 | ||
| van | 1 | ||
| deze | 1 | ||
| zijn | 1 |
Conclusie: De woorden demo en tekst zijn duidelijk belangrijker dan de rest. Dit kan bijdragen aan het identificeren van jargon-specifieke woorden.
Voorbeeldtekst¶
Demo tekstDit is een demo tekst, de kenmerken van deze tekst zijn:
- Demo
- tekst