Wat is robots.txt?

In het kort

Met Robots.txt geef je door aan zoekmachines welke informatie zij mee mogen nemen bij het bepalen van rankings. Je kunt als het ware instructies meegeven aan zoekmachines. In een Robots.txt bestand vertel je bijvoorbeeld aan zoekmachines welke pagina ze moeten bekijken en welke niet. Zo kun je ervoor zorgen dat bepaalde content niet te zien is in zoekmachines. Denk aan bijvoorbeeld de contactpagina, bedankpagina of een testpagina. Die wil je natuurlijk niet laten voorkomen in zoekmachines. Door slim gebruik te maken van Robots.txt bestanden, kun je dit gelukkig vermijden en verspil je geen linkjuice.

Belangrijke termen:

Allow en disallow
User-Agent
Duplicate content.
Linkjuice

Het klinkt misschien ingewikkeld, maar dat is het totaal niet. Bij het gebruik van Robots.txt komen veel verschillende aspecten kijken. Toch is het makkelijk te begrijpen, zolang je de juiste uitleg krijgt! Je gebruikt Robots.txt voor SEO doeleinden. Heel simpel gezegd kun je communiceren met zoekmachines door gebruik te maken van Robots.txt. Maar waarom zou je dat willen?

12 januari 2023

Leestijd: 3 min

Wat kun je bereiken met Robots.txt?

Je wil kunnen communiceren met verschillende zoekmachines om ervoor te zorgen dat al jouw linkjuice goed en vooral op een efficiënte manier benut wordt. Wanneer je nadenkt over linkjuice, kun je het vergelijken met een auto. Om in een auto van punt A naar punt B te kunnen gaan, heb je brandstof nodig. Zo heb je om een positie in te nemen in Google linkjuice nodig. Aangezien er in een auto slechts een beperkt aantal liters in kunnen, is het verstandig om je route eerste uit te stippelen. Anders zou je als snel brandstof verspillen en moet je steeds bij blijven tanken. Dat geldt voor linkjuice net zo! Als je niet tegen een zoekmachine zegt waar hij wel of niet naar mag kijken bij het bepalen van de ranking, kan het zomaar gebeuren dat je linkjuice verloren gaat aan nutteloze onderdelen van je website. Daar heb je dus Robots.txt voor nodig!

Met Robots.txt kun je tegen zoekmachines zeggen dat je pagina’s met duplicate content niet wil laten zien. Ook kun je aangeven dat de 404 pagina nee meegenomen moet worden. Wil je hoger komen in Google? Dan is het handig om je te verdiepen in Robots.txt.

Hoe werkt het in de praktijk?

Om te begrijpen hoe Robots.txt werkt en hoe je het moet gebruiken, is het eerst handig om te weten welke elementen er nog meer bij komen kijken en welke termen en tekens het belangrijkst zijn. Daarom delen we een aantal voorbeelden met je, zodat je precies weet wat moet invullen en wat juist niet.

In voorbeeld 1 zie je twee termen staan. Namelijk ‘User-agent’ en ‘Disallow’. Laten we beginnen met ‘User-agent’. Hier ga je aangeven welke zoekmachine je website mag bekijken. Je kunt hier bijvoorbeeld laten weten aan Bing dat je niet wil dat deze zoekmachine je website bekijkt. Misschien wil je alleen ranken in Google. Dan vul je ‘User-agent: Googlebot’ in. Wil je alleen ranken in Bing? Dan vul je ‘User-agent: Bingbot’ in. Mocht je geen voorkeuren hebben, vul je ‘User-agent:*’ in. Bots van verschillende zoekmachines zullen dan crawlen over je website. Eigenlijk best simpel toch?!

Als het gaat om ‘Disallow’ hoef je ook niet al te ingewikkeld te denken. Met ‘Disallow’ geef je simpelweg aan dat User-agents een bepaalde link niet mogen crawlen. In voorbeeld 1 zie je niets staan achter het woord ‘Disallow’. Dat betekent dat de user-agent alle pagina’s mag crawlen. Staat er een ‘/’ achter, net als in voorbeeld 2? Dan zeg je tegen de user-agent dat hij juist geen pagina mag crawlen.

Wanneer je kijkt naar voorbeeld 2, zie je dat de bot van Bing geen enkele pagina zal crawlen op de website.

In voorbeeld 3 zie je nu weer een andere combinatie staan. Je ziet hier het twee nieuwe begrip spambot’. Het woord ‘spambot zet je in een Robots.txt bestand wanneer je aan spambots wil aangeven hij de website niet mag crawlen. Door ‘spambot’ te combineren met ‘Disallow:/, zeg je dus tegen alle spambots dat ze geen enkele pagina op jouw website mogen crawlen. Het zou zonde zijn als al je linkjuice daaraan verloren gaat!

Het laatste voorbeeld dat we met je doornemen is voorbeeld 4. Dit is in feite het meest simpele voorbeeld. Je ziet hier het begrip ‘Allow’ staan. Met ‘Allow:/ ’ geef je aan welke pagina’s op jouw website gecrawld wel mogen worden.

Handig om te weten!

Er zijn een aantal belangrijke punten die we je mee willen geven, voordat je aan de slag gaat met je Robots.txt bestand. We geven je een aantal handige tips!

Robots.txt en NoIndex zijn niet precies hetzelfde.Hoewel de twee op elkaar lijken, hebben ze niet hetzelfde effect op zoekmachines. Met Robots.txt geef je aan dat zoekmachines bepaalde onderdelen van je website niet geen extra aandacht hoeven te geven. ‘Je hoeft deze specifieke URL niet te bekijken’ dat is wat je zegt door Robots.txt te gebruiken. Zo wordt er geen linkjuice aan verspilt, maar komt de pagina wel in de zoekresultaten. Je moet alleen niet verwachten dat deze specifieke link een hoge ranking zal hebben. Dit omdat er dus geen linkjuice naartoe gaat!

Gebruik je ‘NoIndex’? Dan zal de betreffende pagina helemaal niet verschijnen in zoekresultaten. Wel zullen de zoekmachines de URL bekijken.

Het is goed om te weten dat iedereen gewoon bij het bestand kan komen door /robots.txt achter jouw URL te plakken. Het is dus onverstandig om er persoonlijke of ‘geheime’ informatie in te zetten.
Daarnaast is het hebben van een robots.txt niet verplicht. Als je niet weet hoe het opzetten van het bestand werkt, dan is het vaak verstandiger om het niet te doen, zodat je geen cruciale fouten kan maken. Het is dan slim om aan je web developer te vragen of hij het bestand kan opstellen en kan online kan zetten.
Als laatste punt is het nog belangrijk om externe links niet naar uitgesloten pagina’s in het robots.txt bestand te laten verwijzen. Gebeurt dit wel? Dan is de kans dat deze alsnog worden opgenomen in de zoekresultaten. Als je dit wilt voorkomen kun je ook nog voor de zekerheid NoIndex aan de gewenste pagina(‘s) mee te geven.

Klaar voor de start?

Nu weet je precies wat Robots.txt is, waar je het voor gebruikt en hoe het eruit ziet. Je kunt nu al aan de slag met je eigen website. Lees de informatie vooral nog een keer door om de materie goed te begrijpen en laat alles even bezinken. We snappen dat het veel informatie kan zijn als er voor het eerst mee aan de slag gaat. Je hoeft het niet helemaal alleen uit te zoeken. Bij SAM Online Marketing kun je altijd terecht voor vragen. Geen vraag is te gek. Vraag maar raak! SAM Online Marketing helpt je met plezier verder! Neem contact met ons op.

Meer lezen van Ali?

Alle begrippen op een rij

0-9

J
K
L

Q
R

Title tag

V
W

X
Y
Z