De zoekwoorddichtheid (Keyword Density in het Engels) is een indicatie hoe vaak een woord (of woordcombinatie) in een tekst voorkomt. Het berekent hoeveel procent van alle woorden in de tekst het te meten woord is.
Toen zoekmachines nog niet lang bestonden, vond men zoekwoorddichtheid erg belangrijk. Het idee was dat er een soort ideale zoekwoorddichtheid was voor een hoge positie in de zoekresultaten. Die tijd ligt inmiddels ver achter ons. De zoekwoorddichtheid speelt geen rol meer.
Term Frequency – Inverse Document Frequency (TF-IDF)
Een variant op de traditionele zoekwoorddichtheid is Term Frequency – Inverse Document Frequency (TF-IDF). Dit getal geeft het belang van een woord aan, rekening houdend met hoe uniek het woord is in alle teksten.
Woorden die in bijna alle teksten staan (woorden als de en het) zijn onbelangrijk, omdat ze niet gebruikt kunnen worden om onderscheid tussen teksten te maken. Ze hebben een lage TF-IDF score.
De berekening van de TF-IDF score verloopt als volgt.
- Term Frequency. De term frequency (TF) is het aantal keer dat een woord voorkomt in een tekst (woordfrequentie), gedeeld door het totale aantal woorden in de tekst: TF = woordfrequentie / totaal aantal woorden
De term frequency geeft aan hoe belangrijk een woord is binnen een tekst. Dit is exact hetzelfde als de traditionele zoekwoorddichtheid.
- Inverse Document Frequency. De inverse document frequency (IDF) is gelijk aan de logaritmische waarde van: het totaal aantal teksten, gedeeld door het aantal teksten waarin het woord voorkomt: IDF = Log (totaal aantal documenten / aantal documenten met het woord)
Dit getal geeft aan hoe onderscheidend het woord is in de groep met teksten. Woorden die in alle teksten voorkomen, hebben weinig onderscheidend vermogen (de IDF is dan laag).
- Term Frequency – Inverse Document Frequency. Tenslotte worden de term frequency en de inverse document frequency vermenigvuldigd: TF-IDF = TF x IDF
De uitkomst geeft aan hoe belangrijk een woord is binnen een tekst, met een correctie voor het onderscheidend vermogen van het woord.
Een lage TF-IDF betekent dat het woord òf weinig voorkomt in een tekst, òf dat het woord in bijna alle teksten voorkomt. De TF-IDF score speelt nog wel rol bij het bepalen van de relevantie van teksten voor een zoekopdracht.