Wat is een webcrawler?

De analyse van je website door webcrawlers is funest voor jouw ranking in Google. Een webcrawler, ook wel een bot, spider of robot genoemd, zijn de softwareprogramma’s/algoritmen van Google en andere zoekmachines die continu op zoek zijn naar nieuwe webpagina’s of vernieuwde webpagina’s. Door te weten hoe een crawler werkt, kun je de website hier op aanpassen.

Ali Demir

Geschreven door:

Ali Demir

Leestijd: 3 min

Wat doet een crawler?

De webcrawlers bezoeken elke pagina op internet die niet op NoIndex staat. Daarbij maken ze gebruik van het crawlbudget. Tijdens het crawlen van de website leest de bot alle regels van de website. Eigenlijk ‘leest’ het de content en probeert het te begrijpen waar de website overgaat. Enkele factoren die een crawler leest zijn bijvoorbeeld de URL en de koppen op een pagina. Vervolgens volgt het interne links om de website verder te onderzoeken. Het is daarom verstandig om een goede interne linkstructuur op je website te hebben. Zodra een crawler een link tegenkomt op de pagina zal deze aan de lijst met te bezoeken URL’s worden toegevoegd.

Wat is het crawlbudget?

Zojuist hebben we het al even benoemd, het crawlbudget, maar wat is het crawlbudget? Iedere keer dat een crawler jouw website bezoekt, heeft het een bepaald budget. Dit budget heeft betrekking op de hoeveelheid pagina’s die de bot gaat bezoeken. Dat is dus het crawlbudget. Is dit op? Dan zal de bot jouw website verlaten en de website niet verder indexeren. Hoe hoger de autoriteit van jouw website is, hoe hoger het crawlbudget is. Door je autoriteit te verhogen door middel van zoekmachine optimalisatie, wordt het crawlbudget hoger en zullen meer pagina’s van je website worden geïndexeerd.

Betere besteding van het crawlbudget

Door middel van SEO kun je jouw website (laten) optimaliseren voor zoekmachines. Het is natuurlijk de bedoeling dat de belangrijke pagina’s van jouw website hoog in Google komen zodat je bezoekers en conversies kan genereren. Pagina’s die je niet hebt geoptimaliseerd hoeven dan ook niet toegankelijk te zijn voor de bots van zoekmachines. Deze zijn op diverse manieren uit te sluiten, namelijk: Robots.txt-bestand, NoIndex tag of een canonical tag. In het Robots.txt bestand kunnen pagina’s worden aangegeven die de crawler niet mag indexeren. Maar het kan ook voorkomen dat de bot van Google het Robots.txt bestand negeert. Het is daarom beter om een NoIndex tag mee te geven aan een pagina die niet mag worden geïndexeerd door Google en andere zoekmachines. Deze kun je eenvoudig toevoegen door middel van een plugin zoals Yoast SEO of Rankmath. Een andere optie is de canonical tag. Maar deze wordt voornamelijk gebruikt wanneer twee of meerdere pagina’s nagenoeg gelijk zijn en daardoor voor een hoog percentage duplicate content zorgen. Met een canonical tag geef je aan de crawler aan wat de originele pagina is en welke dus geïndexeerd moet worden. Gaat dit allemaal boven je pet en besteed je het liever uit? Bij SAM Online Marketing staan we klaar om jouw crawlbudget te optimaliseren en jouw website hoger in Google te krijgen. Meer weten over de mogelijkheden? Neem dan contact met ons op.

Inhoudsopgave

Meer lezen van Ali
Meer lezen van Ali?

Alle begrippen op een rij

0-9

A

B

C

D

E

F

G

H

I

J
K
L

M

N

O

P

Q
R

S

T

U

V
W

X
Y
Z