Crawlen beheren via robots.txt: voorbeelden en tips

SEO
Gepubliceerd op 1 februari 2024
Laatste update: 30 augustus 2024

Een robots.txt-bestand vertelt zoekmachines welke pagina's wel en niet bezocht mogen worden. Het bestand is een belangrijke tool voor SEO.

In één oogopslag:

Het robots.txt bestand helpt om je crawlbudget te optimaliseren en irrelevante URL’s te verbergen voor zoekmachines
In het bestand kan je verschillende user-agents targetten, zoals Bingbot
Voeg ook een link toe naar je XML-sitemap
Controleer de inhoud op fouten, want die hebben vaak grote gevolgen

Hoe ziet een robots.txt bestand eruit?

Een robots.txt bestand staat altijd op dezelfde plaats, namelijk in de root domain van een website. Dat van mijn site vind je bijvoorbeeld op https://www.fuseo.be/robots.txt.

De inhoud kan er als volgt uitzien:

				
					User-agent: *
Disallow: /prive/
Disallow: */extras$

User-Agent: Baiduspider
Disallow: /

Lijkt dit ingewikkeld? Geen probleem, een robots.txt bestand is relatief eenvoudig aan te maken. Later in dit artikel geef ik meer informatie over de opmaak.

Waarvoor dient een robots.txt bestand?

Zoekmachines zoals Google gebruiken crawlers om het web in kaart te brengen. Deze crawlers zijn bijzonder ijverig. Ze willen elke pagina van een site bezoeken. Maar dat is niet altijd nuttig of gewenst.

Er zijn verschillende situaties waarin je crawlers de toegang tot een URL wil ontzeggen via het robots.txt bestand:

Crawlbudget optimaliseren

Zelfs de computerkracht van Google is beperkt. Daarom leggen ze een limiet op het aantal keren dat een crawler een website bezoekt. Dit noemen we het crawlbudget.

Dit crawlbudget varieert op basis van de grootte van de site, het aantal backlinks, het aantal technische fouten en nog een paar andere parameters.

Wanneer een groot aantal niet-relevante pagina’s worden gecrawld, kan dit nadelig zijn voor de pagina’s die je wel wil laten indexeren.

Door onnodige URL’s te blokkeren met het robots.txt bestand kan Google meer crawlbudget besteden aan pagina’s die er wel toe doen.

Dubbele URL’s blokkeren

Dikwijls zijn er meerdere pagina’s die dezelfde inhoud bevatten maar een ander adres (URL) kregen.

Dat zien we dikwijls in webshops. Afhankelijk van de technische setup wordt bij het sorteren en filteren van producten een nieuwe URL gecreëerd.

In sommige gevallen ontstaan er op deze manier duizenden of zelfs miljoenen combinaties. Via het robots.txt bestand voorkom je dit probleem.

Pagina’s en bestanden verbergen

Soms wil je bestanden zoals PDF’s en afbeeldingen privé houden. Door de juiste regels in je robots.txt file te zetten, blokkeer je de toegang tot deze bestanden voor crawlers.

Een URL die geblokkeerd wordt door het robots.txt kan nog steeds geïndexeerd worden indien een andere site ernaar linkt

Hoewel Google URL's geblokkeerd door een robots.txt-bestand niet zal crawlen of indexeren, kunnen bepaalde URL's nog steeds in de zoekresultaten verschijnen indien externe sites ernaar linken. Om dit te voorkomen moet je de noindex meta tag gebruiken.

Een robots.txt bestand maken

Een robotst.txt bestand bestaat uit verschillende lijnen met informatie. Hieronder vind je stap-voor-stap instructies om dit op te maken:

User-agent

Het eerste lijntje is de user-agent. Dit is de naam van de crawler waarvoor de onderliggende regels gelden.

Met onderstaande code richten we ons tot de crawler van Google:

				
					User-agent: Googlebot

Elke crawler heeft een eigen naam. Op kinsta.com vind je een lijst met de meest populaire crawlers.

Je hoeft niet elke crawler apart aan te spreken. Door een sterretje toe te voegen, maak je een regel die geldt voor alle crawlers die de website bezoeken:

				
					User-agent: *

Allow/disallow

Na de user-agent komen een of meerdere allow/disallow regels.

Hiermee geef je aan welke delen van een site toegankelijk of verboden zijn voor crawlers.

Als we bijvoorbeeld alle zoekmachines willen toestaan om de hele website te crawlen, zou ons robots.txt bestand er zo uitzien:

				
					User-agent: *
Allow: /

Als we alle zoekmachines willen blokkeren om de pagina’s te crawlen, voegen we een disallow toe:

				
					User-agent: *
Disallow: /

Met andere woorden, een enkele schuine streep kan een hele website van het doorzoekbare internet verwijderen! Let dus op wanneer je disallow regels toevoegt.

We kunnen ook iets specifieker zijn en bijvoorbeeld Bing blokkeren om een bepaalde blogpost te crawlen:

				
					User-agent: Bingbot
Disallow: /blog/voorbeeld-artikel

Een groot aantal URL’s blokkeren vraagt veel werk. Gelukkig kan je pattern matching gebruiken om met één regel een handvol URL’s uit te sluiten. Onderstaande disallow voorkomt dat Googlebot de PDF-bestanden op de site crawlt (let op het sterretje):

				
					User-agent: Googlebot
Disallow: /*.pdf

Deze regel geldt voor een bestand op de URL /brochure.pdf, maar ook voor een bestand op /uploads/brochure.pdf.

Sitemap

Tenslotte heb je de mogelijkheid om in het robots.txt bestand te verwijzen naar de locatie van je XML-sitemap.

Je kan dit als volgt aanduiden:

				
					Sitemap: https://www.website.be/sitemap.xml

Controleer op fouten

Het robots.txt bestand is een krachtige tool voor SEO. Het laat je toe om snel crawl- en indexatieproblemen op te lossen. Maar het kan ook veel problemen veroorzaken. Een foutieve configuratie leidt misschien tot belangrijke pagina’s die plots niet meer zichtbaar zijn voor zoekmachines. Daarom raad ik aan om je robots.txt goed te testen voordat je het oplaadt.

Algemene tips

Om af te sluiten nog een paar algemene tips voor de opmaak van je robots.txt bestand:

Elke regel moet op een aparte lijn staan
Bij conflicten verkiest Google de minst restrictieve regel
Behoud het overzicht door een comment toe te voegen (via een # vooraan de lijn)
Een robots.txt geldt enkel voor de (sub)domein waarop het bestand staat

Vragen over dit onderwerp?

Ik zorg graag voor een antwoord. Stuur snel een berichtje via de contactpagina.

Kevin Vertommen

Kevin Vertommen is een freelancer met meer dan 10 jaar ervaring met SEO, Google Ads en Wordpress. Hij helpt kleine en grote bedrijven met hun online zichtbaarheid.

Meer berichten

Misschien vind je deze berichten ook wel interessant: