Wat is duplicate content?

Kort uitgelegd is duplicate content een stuk tekst dat ergens anders op het internet terug te vinden is. Letterlijk vertaald naar houterig Nederlands gaat het om ‘dubbele inhoud’ Hierbij gaat het om exacte kopieën van de gehele pagina, maar ook exact overeenkomende tekstblokken of significante zinsdelen. Het gaat dus niét om gecopywritete content (of gespinde content voor de deugnieten in het publiek). Hierin zijn hoofdzakelijk twee categorieën van duplicate content te onderscheiden:

Interne duplicate content, waarbij de tekst dubbel voorkomt op eenzelfde domein.
Externe duplicate content, waarbij de tekst dubbel voorkomt op verschillende domeinen.

Duplicate content is wanneer een website op verschillende pagina’s dezelfde content heeft. Het kan ook voorkomen dat een website de informatie van een andere website heeft gekopieerd. In het Nederlands is duplicate content vertaald naar dubbele inhoud. In de wereld van SEO wordt gewoon de Engelse benaming gebruikt. Het heeft een negatief effect op de zoekmachine optimalisatie van een website. Pagina’s krijgen mindere waarde door zoekmachines zoals Google. Google beoordeelt de pagina’s zo dat er maar een van de twee pagina’s waarde heeft. Dit wordt op verschillende manieren gemeten door Google.

11 januari 2023

Leestijd: 3 min

Interne duplicate content

Interne duplicate content is dubbele inhoud die voorkomt op twee of meer plekken op dezelfde website. Het is daarom erg waarschijnlijk dat je er zelf de oorzaak van bent. Bewust of onbewust, de gevolgen zullen hetzelfde zijn. Goede richtlijnen voor het indelen van de website kan het grootste deel van extra werk uit handen nemen om dit te bestrijden. Hieronder een aantal voorbeelden van situaties waarin dit problemen kan geven voor je SEO:

Duplicate content op hetzelfde domein

Zoekmachines zoals Google beschouwen twee pagina’s die een identieke inhoud hebben als duplicate content. Wist je dat dit ook telt bij dezelfde pagina in https als http vorm? Blijven beide pagina’s dus zo staan op je website zal één van de twee als dubbel tellen, en dat willen we niet. De verschillende URL’s zijn:

http-versie
https-versie
www-versie
versies met of zonder hoofdletters
versies die wel of niet eindigen op een /

Dit is een probleem dat voorkomt bij veel websites. Zeker omdat ze op het oog niet zo snel te herkennen zijn. Daarom is het slim om gebruik te maken van tools die je kunnen helpen dit in kaart te brengen. Scheelt een hoop zoekwerk en je bent een stuk zekerder dat je alles aanpakt.

Duplicate content in webshops

Met name webshops hebben het zwaar te verduren als het gaat om interne duplicate content. Dat komt doordat op een webshop vaak vergelijkbare producten worden aangeboden en dus vele vergelijkbare pagina’s nodig heeft. Kleine webshops met een beperkt aanbod of shops die vele unieke spullen aanbieden zullen hier minder last van hebben.

Dubbele productomschrijvingen in een webshop

Webshophouders die online gigantische shops beheren hebben doorgaans te maken met het volgende dilemma omtrent interne duplicate content. Laat je alle productomschrijvingen leeg, omdat het te bewerkelijk is om duizenden producten van content te voorzien? Besteedt je unieke beschrijving van producten uit aan een contentbureau of freelance schrijver wat flink in de kosten kan oplopen? Of verkies je klantervaring boven je SEO en dupliceer je de omschrijvingen met kans op een verlaagde posities? In dit laatste geval zullen alle pagina’s van vergelijkbaar verkoopwaar tot duplicate content worden gerekend. Het zelf schrijven of laten schrijven van unieke content voor ieder item dat je aanbiedt is SEO technisch de beste oplossing voor dit probleem, maar doorgaans ook de meest kostbare.

Andere content heavy sites

Naast webshops zijn er nog andere websites die veel content bezitten en daardoor een grotere kans op interne duplicate content hebben. Denk hierbij aan blogsites, nieuwssites en kennisbanken die pagina’s huisvesten. Deze maken intensief gebruik van zoekfuncties en indelingen op basis van categorieën om de navigatie voor geïnteresseerden te vergemakkelijken. Voor de gebruikers is dit wel zo mooi natuurlijk, maar SEO technisch gezien moet de infrastructuur wel goed opgezet worden. Hier volgen enkele voorbeelden waarbij het lastig kan zijn om duplicate content te herkennen.

Ambivalente sitestructuur van een website

Dit probleem is een stuk venijniger dan het voorgaande, niet zozeer omdat het om de omvang gaat, maar omdat dit lastiger op te merken is. Soms kan een webshop allemaal uniek geschreven pagina’s hebben en toch interne duplicate content veroorzaken. Hoe kan dat? In dat geval is het heel goed mogelijk dat productcategorieën zijn toegekend aan die mooie pagina’s van je waardoor de website automatisch per categorie nieuwe URL’s zal genereren met dezelfde content. Dit is gelukkig op te lossen zonder dat je de sitestructuur hoeft aan te passen. Dat doe je door zulke webpagina’s in te stellen als canonical. Hieronder lees je daar meer over.

Onbedoelde geïndexeerde search queries

Soms staan search queries verkeerd ingesteld op een website. Hoe kan je dit herkennen? Als je een zoekopdracht invoert op een website en je vervolgens een zoekresultaat aanklikt wordt je doorverwezen naar de pagina… maar vaak met één klein verschil. Achter de URL wordt de zoekopdracht, de ‘search query’, toegevoegd na een vraagteken en alle zoektermen gescheiden met een plusteken. Het is niet de bedoeling dat deze, door de bezoeker gemodificeerde, URL wordt geïndexeerd in Google! Dat betekent dat webbezoekers door hun zoekgedrag op jouw website zelfstandig duplicate content creëren wat uiteraard niet de bedoeling is. Dit is eveneens eenvoudig op te lossen met het canonical-attribuut. Je wilt de pagina niet op noindex zetten, want zoekmachines moeten de hoofdpagina nog wel kunnen indexeren.

Duplicate content bij verschillende domeinen

Duplicate content bij verschillende domeinen kan voorkomen wanneer een artikel schrijver hetzelfde artikel bij meerdere sites aanbiedt. Het kan ook voorkomen dat artikelen zonder toestemming zomaar de artikelen op andere websites plaatsen. Dit is wel een schending van auteursrecht. Een andere vorm van is wanneer sites die aan affiliate marketing of dropshipping doen de productomschrijvingen van leveranciers precies overnemen.

Gevolgen van duplicate content

Sinds Google de Panda update in 2011 en de Penguin updates in 2012 en 2013 uitrolde zijn de gevolgen van duplicate content groter geworden dan ze waren. Voor de updates was het alleen slecht voor de pagina’s met deze content erop, na de updates is het slecht geworden voor de algehele ranking van een website.

Omdat Google altijd op zoek is naar de meest relevante zoekresultaten voor de gebruikers zal er van de pagina’s met duplicate content maar één worden weergeven in de zoekresultaten. Het is dus niet zo dat jouw pagina uit de indexering wordt gehaald, je krijgt alleen een lagere waardering. Dit kan vervelend zijn wanneer Google niet de originele website pakt maar de website die de content gekopieerd heeft.

Minder crawltijd en minder geïndexeerde pagina’s

Zodra een crawler van Google op een website veel pagina’s met dezelfde inhoud tegenkomt zal de crawler al snel stoppen. De website wordt dan als niet interessant gezien door Google. Dit kan ervoor zorgen dat crawlers van Google niet op de belangrijke pagina’s van een website crawlen. Hierdoor zijn deze pagina’s niet zichtbaar in de zoekresultaten. Google stelt een limiet aan het aantal pagina’s dat het indexeert aan de hand van de PageRank of autoriteit van een website. In de Google Webmaster Tools kunt u de Google PageRank terugvinden. Het kan voorkomen dat Google vele pagina’s met duplicate content indexeert waardoor het limiet wordt bereikt. Dit kan ervoor zorgen dat andere belangrijke pagina’s niet in de index komen te staan.

Penalty voor gehele website

Als een website volgens Google de rangschikking wil manipuleren en gebruikers wil misleiden door content te stelen dan kan een website verwijderd worden uit de index van Google. Hierdoor is de website niet meer zichtbaar in de zoekresultaten wat een hele flinke straf is. Deze straf wordt niet zomaar uitgedeeld. Een website moet erg zijn best doen om dit te bereiken.

Wat er eerder gebeurt in algemene, onbewuste situaties is dat je lager in de zoekresultaten terechtkomt. Als we redeneren vanaf het idee dat alleen de top 3 posities interessant zijn is dit dus alsnog wel heel ingrijpend. Wat dat betreft maakt het geen verschil of het daadwerkelijk een penalty is of dat er ‘gewoon’ sprake is van duplicate content. Die bezoekers die jij graag wilt hebben blijven uit. Daarom is het wel altijd belangrijk om de vergelijkbaarheid van de teksten in de gaten te houden.

Vanaf wanneer telt Google duplicate content?

Duplicate content komt voor wanneer twee of meer pagina’s zo goed als dezelfde inhoud hebben. Er is geen precies percentage bekend maar er wordt geschat dat bij een gelijkenis van 70% of meer een pagina wordt beschouwd als dubbel.

Het gaat dan alleen om de tekst op de pagina en niet de codering. Het maakt dus niet uit als twee pagina’s precies dezelfde uitstraling hebben, zolang de tekst maar verschillend is. Zoekmachines zoals Google beschouwen elke unieke URL als een aparte pagina. Google is zelf niet heel concreet in het verwoorden wat het tot dubbele inhoud rekent en houdt deze kennis natuurlijk voor zichzelf om te voorkomen dat SEO specialisten en bureaus met hun algoritme aan de haal gaan en het uitbuiten.

Doordat het niet duidelijk is wat de richtlijnen zijn wordt er online veel gespeculeerd over hoe het werkt. Het is niet zeker of dit wordt berekend aan de hand van een percentage matchende tekst of dat het om absolute aantallen woorden, zinsdelen of zinnen gaat die overeen komen.

Wel kan je er zeker van zijn dat als je een unieke tekst hebt geschreven je geen zorgen hoeft te maken of er een paar zinnen overeenkomen. Google begrijpt wel dat sommige uitdrukkingen of ‘versteende uitspraken’ altijd op dezelfde manier geschreven worden.

Oplossingen voor duplicate content

Duplicate content wil je zo snel mogelijk oplossen. Gelukkig is dit mogelijk omdat er heel wat oplossingen zijn. Neem een kijkje in de lijst hieronder en pas toe wat het beste bij je website hoort.

Schrijf unieke teksten.
Dubbele content verwijderen; hierdoor geeft de URL een 404-code aan. Als een pagina veel inkomende links en bezoekers heeft dan is het verstandig om te kiezen voor de volgende oplossing.
301-redirect; Door middel van een 301-redirect kan een beheerder aangeven dat een pagina permanent is verplaatst naar een andere locatie oftewel URL. Kies altijd voor een 301-redirect omdat deze linkjuice laat doorvloeien, een 302-redirect doet dit niet.
Redirect van http naar www; Het is belangrijk dat de pagina’s op een website toegankelijk zijn via een soort URL. Met een 301-redirect van www naar http of andersom worden problemen voorkomen.
Canonical tag; Met een canonical tag laat u Google weten welke URL de voorkeur heeft van een website.
Robots.txt; Een robots.txt bestand bij een website laat aan zoekmachines weten op welke pagina’s ze wel of niet mogen crawlen. Sommigen plaatsen de duplicate content in deze folder om ze te blokkeren. Google raadt dit echter af en er kan een hoop fout gaan hiermee. Niet je vingers aan branden dus.
URL verwijderen; In Google Search Console is het mogelijk om een URL te verwijderen. Wanneer dit verzoek wordt aangevraagd moet de beheerder van de website zorgen dat de pagina een 404-code geeft.

Wil je weten hoe je website ervoor staat op het gebied van SEO? Doe dan onze gratis SEO check!

Meer lezen van Ali?

Alle begrippen op een rij

0-9

J
K
L

Q
R

Title tag

V
W

X
Y
Z