Crawlen

Crawlen is het bezoeken van webpagina’s door de webcrawlers van Google. Een webcrawler (ook wel zoekrobot of spider genoemd) is een computerprogramma dat webpagina’s bezoekt, de inhoud ervan opslaat en de links op de pagina volgt om nog meer webpagina’s te vinden.

Met een een XML Sitemap kun je ook zelf aan de webcrawler van Google (Googlebot) doorgeven welke pagina’s er in je site te vinden zijn.

Indexeren

Een ander computerprogramma van Google (Caffeine) bekijkt en analyseert de gevonden pagina’s en legt belangrijke kenmerken van de pagina, bijvoorbeeld de URL en de titel, vast in Google’s zoekindex. Dit heet indexeren.

Crawl budget

De crawler van Google besteedt een beperkte tijd aan het crawlen van pagina’s op een webserver. Dit wordt het crawl budget genoemd en is bedoeld om te voorkomen dat het crawlen een negatieve invloed heeft op de prestaties van de webserver.

Vind je toch dat Google je webserver te zwaar belast, dan kun je via de site-instellingen in Google Search Console (klik op het tandwieltje) een lagere crawlsnelheid instellen. Googlebot doet dan voor een periode van 90 dagen niet meer dan het ingestelde aantal verzoeken per seconde.

Instructies voor webcrawlers

Via de instructies in een zogenaamd robots.txt bestand op je webserver, geef je aan de crawlers van Google door welke pagina’s het niet mag bezoeken. Je kunt er op vertrouwen dat Google deze instructies zal volgen.

Bedenk wel dat Google de inhoud van een pagina niet kan zien, als het deze niet mag bezoeken. Een noindex statement in een robots metatag heeft bijvoorbeeld alleen zin als Google de pagina mag bezoeken.

Crawl volgorde en crawl frequentie

Google gebruikt diverse signalen om te beslissen welke pagina’s als eerste gecrawld moeten worden. De belangrijkste pagina’s, met een hoge PageRank, worden het eerst en het vaakst bezocht. Ook als een pagina voorkomt in de XML Sitemap van je site, kan dat een reden zijn hem eerder te crawlen. Als een pagina vaak verandert, zal Google deze ook vaker bezoeken.

Meer informatie over crawlen vind je op: (Google Inside Search) Crawlen en indexeren.