Wat kun je bereiken met Robots.txt?
Je wil kunnen communiceren met verschillende zoekmachines om ervoor te zorgen dat al jouw linkjuice goed en vooral op een efficiënte manier benut wordt. Wanneer je nadenkt over linkjuice, kun je het vergelijken met een auto. Om in een auto van punt A naar punt B te kunnen gaan, heb je brandstof nodig. Zo heb je om een positie in te nemen in Google linkjuice nodig. Aangezien er in een auto slechts een beperkt aantal liters in kunnen, is het verstandig om je route eerste uit te stippelen. Anders zou je als snel brandstof verspillen en moet je steeds bij blijven tanken. Dat geldt voor linkjuice net zo! Als je niet tegen een zoekmachine zegt waar hij wel of niet naar mag kijken bij het bepalen van de ranking, kan het zomaar gebeuren dat je linkjuice verloren gaat aan nutteloze onderdelen van je website. Daar heb je dus Robots.txt voor nodig!
Met Robots.txt kun je tegen zoekmachines zeggen dat je pagina’s met duplicate content niet wil laten zien. Ook kun je aangeven dat de 404 pagina nee meegenomen moet worden. Wil je hoger komen in Google? Dan is het handig om je te verdiepen in Robots.txt.
Hoe werkt het in de praktijk?
Om te begrijpen hoe Robots.txt werkt en hoe je het moet gebruiken, is het eerst handig om te weten welke elementen er nog meer bij komen kijken en welke termen en tekens het belangrijkst zijn. Daarom delen we een aantal voorbeelden met je, zodat je precies weet wat moet invullen en wat juist niet.
In voorbeeld 1 zie je twee termen staan. Namelijk ‘User-agent’ en ‘Disallow’. Laten we beginnen met ‘User-agent’. Hier ga je aangeven welke zoekmachine je website mag bekijken. Je kunt hier bijvoorbeeld laten weten aan Bing dat je niet wil dat deze zoekmachine je website bekijkt. Misschien wil je alleen ranken in Google. Dan vul je ‘User-agent: Googlebot’ in. Wil je alleen ranken in Bing? Dan vul je ‘User-agent: Bingbot’ in. Mocht je geen voorkeuren hebben, vul je ‘User-agent:*’ in. Bots van verschillende zoekmachines zullen dan crawlen over je website. Eigenlijk best simpel toch?!
Als het gaat om ‘Disallow’ hoef je ook niet al te ingewikkeld te denken. Met ‘Disallow’ geef je simpelweg aan dat User-agents een bepaalde link niet mogen crawlen. In voorbeeld 1 zie je niets staan achter het woord ‘Disallow’. Dat betekent dat de user-agent alle pagina’s mag crawlen. Staat er een ‘/’ achter, net als in voorbeeld 2? Dan zeg je tegen de user-agent dat hij juist geen pagina mag crawlen.
Wanneer je kijkt naar voorbeeld 2, zie je dat de bot van Bing geen enkele pagina zal crawlen op de website.
In voorbeeld 3 zie je nu weer een andere combinatie staan. Je ziet hier het twee nieuwe begrip spambot’. Het woord ‘spambot zet je in een Robots.txt bestand wanneer je aan spambots wil aangeven hij de website niet mag crawlen. Door ‘spambot’ te combineren met ‘Disallow:/, zeg je dus tegen alle spambots dat ze geen enkele pagina op jouw website mogen crawlen. Het zou zonde zijn als al je linkjuice daaraan verloren gaat!
Het laatste voorbeeld dat we met je doornemen is voorbeeld 4. Dit is in feite het meest simpele voorbeeld. Je ziet hier het begrip ‘Allow’ staan. Met ‘Allow:/ ’ geef je aan welke pagina’s op jouw website gecrawld wel mogen worden.