Information Retrieval (IR)

Information Retrieval is het vakgebied dat zich bezighoudt met het zoeken naar informatie in documenten uit een grote verzameling ongestructureerde (tekst)documenten met het doel aan een bepaalde informatiebehoefte te voldoen. Voor zoekmachines is dit vakgebied erg belangrijk. Zij helpen hun gebruikers graag om precies die informatie te vinden, die zij zoeken.

Belangrijke begrippen binnen het vakgebied Information Retrieval zijn:

  • Relevantie: de mate waarin een document voldoet aan de informatiebehoefte.
  • Recall (vangst): welk deel van alle relevante documenten is gevonden.
  • Precision (precisie): welk deel van de gevonden documenten is relevant.

Het ultieme doel bij Information retrieval is om alle relevante documenten te vinden (hoge recall) zonder daarbij niet-relevante documenten te vinden (hoge precision). In de praktijk is dit vaak lastig.

Information Retrieval methoden

In de meest simpele vorm bestaat Information retrieval uit het zoeken naar overeenkomsten tussen woorden in de zoekopdracht en woorden in de set met documenten. Dat levert vaak slechte resultaten op, omdat woorden soms verschillend zijn, terwijl ze hetzelfde betekenen (synonymie) of omdat woorden soms hetzelfde zijn, maar niet hetzelfde betekenen (polysemie).

Slimmere methoden gebruiken statistiek om relevante documenten te ontdekken. Daarmee kan beter ingeschat worden welke documenten bij een zoekwoord passen. Een bekende methode is Latent Dirichlet Allocation (LDA). Deze methode heeft als uitgangspunt dat elk onderwerp een eigen woordenschat (vocabulaire) heeft. Het taalgebruik in een document geeft dan aan waar het over gaat en of het relevant is voor het zoekwoord.

Ook Google gebruikt statistische methoden om te beoordelen welke webpagina’s relevant zijn voor een zoekopdracht. Hoe ze dat precies doen blijft geheim, maar een methode als Latent Dirichlet Allocation geeft waarschijnlijk een goed beeld van hoe Google teksten analyseert om te bepalen bij welke zoekwoorden het goed past.

Relevantie feedback

Information retrieval methoden bevatten ook vaak een feedback mechanisme. De feedback geeft een oordeel over de relevantie van een zoekresultaat en wordt gebruikt om de relevantie van een volgende zoekopdracht te verbeteren.

Feedback kan expliciet zijn: gebruikers geven een oordeel over de relevantie van een zoekresultaat. En feedback kan impliciet zijn: uit het gedrag van gebruikers wordt dan afgeleid of zij een zoekresultaat relevant vonden.

Google vraagt geen expliciete feedback aan gebruikers. Wel zetten ze Search Quality Raters in die feedback geven op de kwaliteit van zoekresultaten.

Impliciete feedback, zoals het klikgedrag van gebruikers (een pagina waar vaker op geklikt wordt, is relevanter) of bezoekgedrag (een pagina die langer bezocht wordt, is relevanter) bevat teveel ruis om bruikbaar te zijn voor Google.