Latent Dirichlet Allocation (LDA)

Latent Dirichlet Allocation (LDA) is een methode uit het vakgebied van de Information Retrieval. Met deze methode ontdek je de onderwerpen in een tekst en de woorden die bij deze onderwerpen passen. Deze informatie kan een zoekmachine gebruiken om relevante teksten bij een zoekopdracht te vinden.

LDA gaat er van uit dat in een tekst meerdere onderwerpen aan bod komen. Elk onderwerp is eigenlijk een verzameling woorden met een bepaalde kansverdeling. De kansverdeling geeft aan hoe groot de kans is dat het woord voorkomt in een tekst over het onderwerp.

In een tekst over autoracen, is de kans op woorden als circuit, auto en racen groot en de kans op een woord als sale klein. In onderstaande grafiek is zo’n kansverdeling te zien voor dit onderwerp. LDA geeft overigens geen naam aan een onderwerp, dat label moet je er zelf bij bedenken.

Kansverdeling woorden (LDA)

Met LDA analyseer je een grote groep documenten. De analyse levert dan een aantal groepen met woorden op, waarbij elke groep de woorden bevat, die bij een bepaald onderwerp passen. De analyse geeft daarbij aan hoe groot de kans is dat een woord bij het onderwerp voorkomt.

De LDA analyse geeft ook per document aan hoe groot de kans is dat het document een bepaald onderwerp beschrijft.

De LDA methode wordt genoemd in patenten van Google. Het is dus goed mogelijk dat Google vergelijkbare methoden gebruikt voor het analyseren van teksten. Het is daarom verstandig bij het schrijven van een tekst niet op één zoekwoord te focussen, maar ook goed na te denken welke andere woorden goed bij het onderwerp passen.