In één oogopslag:
- Het robots.txt bestand helpt om je crawlbudget te optimaliseren en irrelevante URL’s te verbergen voor zoekmachines
- In het bestand kan je verschillende user-agents targetten, zoals Bingbot
- Voeg ook een link toe naar je XML-sitemap
- Controleer de inhoud op fouten, want die hebben vaak grote gevolgen
Hoe ziet een robots.txt bestand eruit?
Een robots.txt bestand staat altijd op dezelfde plaats, namelijk in de root domain van een website. Dat van mijn site vind je bijvoorbeeld op https://www.fuseo.be/robots.txt.
De inhoud kan er als volgt uitzien:
User-agent: *
Disallow: /prive/
Disallow: */extras$
User-Agent: Baiduspider
Disallow: /
Lijkt dit ingewikkeld? Geen probleem, een robots.txt bestand is relatief eenvoudig aan te maken. Later in dit artikel geef ik meer informatie over de opmaak.
Waarvoor dient een robots.txt bestand?
Zoekmachines zoals Google gebruiken crawlers om het web in kaart te brengen. Deze crawlers zijn bijzonder ijverig. Ze willen elke pagina van een site bezoeken. Maar dat is niet altijd nuttig of gewenst.
Er zijn verschillende situaties waarin je crawlers de toegang tot een URL wil ontzeggen via het robots.txt bestand:
Crawlbudget optimaliseren
Zelfs de computerkracht van Google is beperkt. Daarom leggen ze een limiet op het aantal keren dat een crawler een website bezoekt. Dit noemen we het crawlbudget.
Dit crawlbudget varieert op basis van de grootte van de site, het aantal backlinks, het aantal technische fouten en nog een paar andere parameters.
Wanneer een groot aantal niet-relevante pagina’s worden gecrawld, kan dit nadelig zijn voor de pagina’s die je wel wil laten indexeren.
Door onnodige URL’s te blokkeren met het robots.txt bestand kan Google meer crawlbudget besteden aan pagina’s die er wel toe doen.
Dubbele URL’s blokkeren
Dikwijls zijn er meerdere pagina’s die dezelfde inhoud bevatten maar een ander adres (URL) kregen.
Dat zien we dikwijls in webshops. Afhankelijk van de technische setup wordt bij het sorteren en filteren van producten een nieuwe URL gecreëerd.
In sommige gevallen ontstaan er op deze manier duizenden of zelfs miljoenen combinaties. Via het robots.txt bestand voorkom je dit probleem.
Pagina’s en bestanden verbergen
Soms wil je bestanden zoals PDF’s en afbeeldingen privé houden. Door de juiste regels in je robots.txt file te zetten, blokkeer je de toegang tot deze bestanden voor crawlers.
Hoewel Google URL's geblokkeerd door een robots.txt-bestand niet zal crawlen of indexeren, kunnen bepaalde URL's nog steeds in de zoekresultaten verschijnen indien externe sites ernaar linken. Om dit te voorkomen moet je de noindex meta tag gebruiken.
Een robots.txt bestand maken
Een robotst.txt bestand bestaat uit verschillende lijnen met informatie. Hieronder vind je stap-voor-stap instructies om dit op te maken:
User-agent
Het eerste lijntje is de user-agent. Dit is de naam van de crawler waarvoor de onderliggende regels gelden.
Met onderstaande code richten we ons tot de crawler van Google:
User-agent: Googlebot
Elke crawler heeft een eigen naam. Op kinsta.com vind je een lijst met de meest populaire crawlers.
Je hoeft niet elke crawler apart aan te spreken. Door een sterretje toe te voegen, maak je een regel die geldt voor alle crawlers die de website bezoeken:
User-agent: *
Allow/disallow
Na de user-agent komen een of meerdere allow/disallow regels.
Hiermee geef je aan welke delen van een site toegankelijk of verboden zijn voor crawlers.
Als we bijvoorbeeld alle zoekmachines willen toestaan om de hele website te crawlen, zou ons robots.txt bestand er zo uitzien:
User-agent: *
Allow: /
Als we alle zoekmachines willen blokkeren om de pagina’s te crawlen, voegen we een disallow toe:
User-agent: *
Disallow: /
Met andere woorden, een enkele schuine streep kan een hele website van het doorzoekbare internet verwijderen! Let dus op wanneer je disallow regels toevoegt.
We kunnen ook iets specifieker zijn en bijvoorbeeld Bing blokkeren om een bepaalde blogpost te crawlen:
User-agent: Bingbot
Disallow: /blog/voorbeeld-artikel
Een groot aantal URL’s blokkeren vraagt veel werk. Gelukkig kan je pattern matching gebruiken om met één regel een handvol URL’s uit te sluiten. Onderstaande disallow voorkomt dat Googlebot de PDF-bestanden op de site crawlt (let op het sterretje):
User-agent: Googlebot
Disallow: /*.pdf
Deze regel geldt voor een bestand op de URL /brochure.pdf, maar ook voor een bestand op /uploads/brochure.pdf.
Sitemap
Tenslotte heb je de mogelijkheid om in het robots.txt bestand te verwijzen naar de locatie van je XML-sitemap.
Je kan dit als volgt aanduiden:
Sitemap: https://www.website.be/sitemap.xml
Controleer op fouten
Het robots.txt bestand is een krachtige tool voor SEO. Het laat je toe om snel crawl- en indexatieproblemen op te lossen. Maar het kan ook veel problemen veroorzaken. Een foutieve configuratie leidt misschien tot belangrijke pagina’s die plots niet meer zichtbaar zijn voor zoekmachines. Daarom raad ik aan om je robots.txt goed te testen voordat je het oplaadt.
Algemene tips
Om af te sluiten nog een paar algemene tips voor de opmaak van je robots.txt bestand:
- Elke regel moet op een aparte lijn staan
- Bij conflicten verkiest Google de minst restrictieve regel
- Behoud het overzicht door een comment toe te voegen (via een # vooraan de lijn)
- Een robots.txt geldt enkel voor de (sub)domein waarop het bestand staat