Robots.txt

Een robots.txt bestand op een webserver bevat instructies voor zoekrobots. Meestal geven de instructies aan dat bepaalde pagina’s, bestanden of mappen niet bezocht mogen worden.

Het bestand staat in de root van je site: http://www.jouwsite.nl/robots.txt of in de root van een subdomein: http://sub.jouwsite.nl/robots.txt.

Gebruik robots.txt vooral om een site efficiënt te laten crawlen. Verbied het bezoek van mappen en pagina’s, die niet in Google thuishoren, bijvoorbeeld: een pagina met zoekresultaten, admin pagina’s, winkelmandje pagina’s, klantaccount pagina’s of inlogpagina’s.

Let op de volgende zaken:

  • robots.txt is hoofdlettergevoelig. Let op de spelling van mappen en pagina’s.
  • Pagina’s die Google niet mag bezoeken, worden soms wel als zoekresultaat getoond.
  • Blokkeer geen bestanden, zoals afbeeldingen, stylesheets of JavaScript, die Google nodig heeft om de opmaak van pagina’s te controleren.

Enkele voorbeelden

In zijn meest eenvoudige vorm bestaat robots.txt uit twee opdrachten:

User-agent: <naam van de zoekrobot of * voor alle robots>
Disallow: <bestanden en mappen die niet toegankelijk zijn>

Bijvoorbeeld om zoekrobots de toegang tot de map /admin/ te ontzeggen, gebruik je de volgende code:

User-agent: *
Disallow: /admin/

Het is ook mogelijk de toegang tot een map te verbieden, terwijl Google wel toegang krijgt tot één of meer pagina’s in die map:

User-agent: *
Disallow: /map/
Allow: /map/deze-pagina-wel.html

Wanneer alles toegankelijk is, zet je niets achter disallow. Deze instructie is echter niet per se nodig, omdat zoekrobots er standaard al van uitgaan, dat alle pagina’s toegankelijk zijn.

User-agent: *
Disallow: 

Als een website geen robots.txt heeft of als het bestand niet toegankelijk is, gaat een zoekrobot er ook van uit dat alle pagina’s toegankelijk zijn.

Eventueel kan in het robots.txt bestand ook de locatie van de XML sitemap aangegeven worden. Bijvoorbeeld:

Sitemap: http://www.jouwsite.nl/sitemap.xml

Zie verder: https://support.google.com/webmasters/answer/6062608?hl=nl&ref_topic=6061961

Pagina’s uitsluiten van indexatie door Google

Pagina’s die Google niet mag bezoeken, worden soms wel als zoekresultaat getoond. Het robots.txt protocol zegt namelijk niets over het wel of niet opnemen in de zoekindex. Als Google de pagina niet mag bezoeken maar wel als zoekresultaat toont, staat er geen beschrijving bij het zoekresultaat.

Geen beschrijving voor zoekresultaat vanwege robots.txt

Wil je er absoluut zeker van zijn dat een pagina niet in Google wordt opgenomen, dan kun je dit beter met de metatag Robots regelen.

Let op: bevat een pagina een Robots metatag die aangeeft dat Google de pagina niet mag indexeren? Zorg dan dat de pagina wel toegankelijk is voor Google, zodat Google de metatag kan zien. Controleer in robots.txt of Google toegang heeft tot de pagina.