Phrase-based indexing

Een phrase (zinsdeel, begrip) bestaat uit meerdere woorden, die gezamenlijk een begrip uitdrukken. Bijvoorbeeld amerikaanse president of verenigde staten. Het indexeren van dergelijke zinsdeel heet phrase-based indexing.

Google heeft veel patenten op het gebied van phrase-based indexing. Het is waarschijnlijk dat zij, naast losse woorden, ook zinsdelen gebruiken bij het indexeren, zoeken en ordenen van webpagina’s.

Phrase-based indexing zorgt voor relevantere zoekresultaten. Voor een zoekopdracht naar amerikaanse president zijn vooral pagina’s relevant waar deze woorden direct achter elkaar staan. In een index met alleen losse woorden, zijn deze pagina’s minder makkelijk te herkennen. In een index met zinsdelen zijn de relevante pagina’s veel eenvoudiger terug te vinden.

Geschikte en ongeschikte zinsdelen (good and bad phrases)

Niet alle zinsdelen in teksten zijn geschikt om te indexeren. Sommige woordcombinaties komen vaak voor, maar beschrijven geen begrip. Denk bijvoorbeeld aan zinsdelen als lees meer of klik hier. Dit zijn ongeschikte zinsdelen, oftewel bad phrases. Google neemt deze niet in de index op.

Een geschikt zinsdeel, oftewel good phrase, is te herkennen aan:

  • Ze hebben een sterke relatie met andere zinsdelen. In teksten over de amerikaanse president, zijn bijvoorbeeld ook vaak begrippen als witte huis, vice-president, Verenigde Staten of Washington, DC te vinden.
  • Omdat zinsdelen aan elkaar gerelateerd zijn, kan het ene zinsdeel gebruikt worden om te voorspellen of het andere zinsdeel in een tekst voorkomt.
  • Ze vallen vaak op door een speciale formattering (vet, cursief, in een ankertekst, in een koptekst).
  • Er zijn veel teksten te vinden waar deze begrippen in staan.

Groepen met teksten over hetzelfde onderwerp

De onderlinge relatie van zinsdelen kan gebruikt worden om groepen teksten te vinden, die over hetzelfde onderwerp gaan. Elke groep bevat teksten met min of meer dezelfde gerelateerde zinsdelen.

Bijvoorbeeld bij het zinsdeel amerikaanse president zijn er verschillende groepen teksten. Eén groep bevat zinsdelen, die bijvoorbeeld te maken hebben met president Barack Obama en een andere groep bevat zinsdelen over George Bush:

  • Amerikaanse president, Barack Obama, 44e president van de Verenigde Staten, Democratische Partij.
  • Amerikaanse president, George W. Bush, 43e president van de Verenigde Staten, Republikeinse Partij.

Spam herkennen

Phrases blijken ook geschikt om spamteksten te herkennen. In spamteksten staan namelijk vaak overdreven veel zinsdelen, waarbij deze zinsdelen onderling ook vaak niet gerelateerd zijn.

Zie voor meer informatie:
Seobythesea (2006): Phrase-based information retrieval and spam detection
Seobythesea (2011): 10 most important seo patents – phrase-based indexing