Wat is duplicate content?

Home | Begrippenlijst | | Wat is duplicate content?

Kort uitgelegd is duplicate content een stuk tekst dat ergens anders op het internet terug te vinden is. Letterlijk vertaald naar houterig Nederlands gaat het om ‘dubbele inhoud’ Hierbij gaat het om exacte kopieën van de gehele pagina, maar ook exact overeenkomende tekstblokken of significante zinsdelen. Het gaat dus niét om gecopywritete content (of gespinde content voor de deugnieten in het publiek). Hierin zijn hoofdzakelijk twee categorieën van duplicate content te onderscheiden:

  • Interne duplicate content, waarbij de tekst dubbel voorkomt op eenzelfde domein.
  • Externe duplicate content, waarbij de tekst dubbel voorkomt op verschillende domeinen.

Duplicate content is wanneer een website op verschillende pagina’s dezelfde content heeft. Het kan ook voorkomen dat een website de informatie van een andere website heeft gekopieerd. In het Nederlands is duplicate content vertaald naar dubbele inhoud. In de wereld van SEO wordt gewoon de Engelse benaming gebruikt. Duplicate content is slecht voor de zoekmachine optimalisatie van een website. Pagina’s krijgen mindere waarde door zoekmachines zoals Google. Google beoordeelt de pagina’s zo dat er maar een van de twee pagina’s waarde heeft. Dit wordt op verschillende manieren gemeten door Google.

Gevolgen van duplicate content

Wat is duplicate content precies?

Duplicate content komt voor wanneer twee of meer pagina’s zo goed als dezelfde inhoud hebben. Er is geen precies percentage bekend maar er wordt geschat dat bij een gelijkenis van 70% of meer een pagina wordt beschouwd als duplicate content. Het gaat dan alleen om de tekst op de pagina en niet de codering. Het maakt dus niet uit als twee pagina’s precies dezelfde uitstraling hebben, zolang de tekst maar verschillend is. Zoekmachines zoals Google beschouwen elke unieke URL als een aparte pagina. Google is zelf niet heel concreet in het verwoorden wat het tot duplicate content rekent en houdt deze kennis natuurlijk voor zichzelf om te voorkomen dat SEO specialisten en bureaus met hun algoritme aan de haal gaan en het uitbuiten. Doordat het niet duidelijk is wat precies tot duplicate content wordt gerekend wordt er online veel gespeculeerd over hoe het werkt. Het is niet zeker of duplicate content wordt berekend aan de hand van een percentage matchende tekst of dat het om absolute aantallen woorden, zinsdelen of zinnen gaat die overeen komen. Wel kan je er zeker van zijn dat als je een unieke tekst hebt geschreven je geen zorgen hoeft te maken of er een paar zinnen overeenkomen. Google begrijpt wel dat sommige uitdrukkingen of ‘versteende uitspraken’ altijd op dezelfde manier geschreven worden. Hoe je precies voorkomt dat je je schuldig maakt aan het schrijven van duplicate content lees je verderop.

Duplicate content met hetzelfde domein

Zoekmachines zoals Google beschouwen dezelfde domeinen die verwijzen naar dezelfde content als duplicate content. Als u geen actie onderneemt, is een domein altijd bereikbaar via twee verschillende URL’s en bij beveiligde omgevingen zelfs via drie verschillende URL’s. De verschillende URL’s zijn:

  • http-versie
  • www-versie
  • https-versie

Dit is een probleem dat voorkomt bij veel websites.

Duplicate content bij verschillende domeinen

Duplicate content bij verschillende domeinen kan voorkomen wanneer een artikel schrijver hetzelfde artikel bij meerdere sites aanbiedt. Het kan ook voorkomen dat artikelen zonder toestemming zomaar de artikelen op andere websites plaatsen. Dit is wel een schending van auteursrecht. Een andere vorm van duplicate content bij verschillende domeinen is wanneer sites die aan affiliate marketing of dropshipping doen de productomschrijvingen van leveranciers precies overnemen.

Ontvang je GRATIS website analyse t.w.v. €399,-

Tijdelijk GRATIS

Interne duplicate content

Interne duplicate content is dubbele inhoud die voorkomt op twee of meer plekken op dezelfde website. Het is daarom erg waarschijnlijk dat je er zelf de oorzaak van bent. Hooguit in een extreem geval waarin jouw website is gehackt en de hacker denkt leuk te zijn door honderden pagina’s te dupliceren om ze vervolgens te publiceren zal jij niet de veroorzaker van interne duplicate content zijn. Hieronder een aantal voorbeelden van situaties waarin deze vorm van duplicate content problemen kan geven voor je SEO:

Duplicate content in webshops

Met name webshops hebben het zwaar te verduren als het gaat om interne duplicate content. Dat komt doordat op een webshop vaak vergelijkbare producten worden aangeboden en dus vele vergelijkbare pagina’s nodig heeft. Kleine webshops met een beperkt aanbod of shops die vele unieke spullen aanbieden zullen hier minder last van hebben.

Dubbele productomschrijvingen in een webshop

Webshophouders die online gigantische shops beheren hebben doorgaans te maken met het volgende dilemma omtrent interne duplicate content. Laat je alle productomschrijvingen leeg, omdat het te bewerkelijk is om duizenden producten van content te voorzien? Besteedt je unieke beschrijving van producten uit aan een contentbureau of freelance schrijver wat flink in de kosten kan oplopen? Of verkies je klantervaring boven je SEO en dupliceer je de omschrijvingen met kans op een verlaagde posities? In dit laatste geval zullen alle pagina’s van vergelijkbaar verkoopwaar tot duplicate content worden gerekend. Het zelf schrijven of laten schrijven van unieke content voor ieder item dat je aanbiedt is SEO technisch de beste oplossing voor dit probleem, maar doorgaans ook de meest kostbare.

Andere content heavy sites

Naast webshops zijn er nog andere websites die veel content bezitten en daardoor een grotere kans op interne duplicate content hebben. Denk hierbij aan blogsites, nieuwssites en kennisbanken die pagina’s huisvesten. Deze maken intensief gebruik van zoekfuncties en indelingen op basis van categorieën om de navigatie voor geïnteresseerden te vergemakkelijken. Voor de gebruikers is dit wel zo mooi natuurlijk, maar SEO technisch gezien moet de infrastructuur wel goed opgezet worden. Hier volgen enkele voorbeelden waarbij het lastig kan zijn om duplicate content te herkennen.

Ambivalente sitestructuur van een website

Dit probleem is een stuk venijniger dan het voorgaande, niet zozeer omdat het om de omvang gaat, maar omdat dit lastiger op te merken is. Soms kan een webshop allemaal uniek geschreven pagina’s hebben en toch interne duplicate content veroorzaken. Hoe kan dat? In dat geval is het heel goed mogelijk dat productcategorieën zijn toegekend aan die mooie pagina’s van je waardoor de website automatisch per categorie nieuwe URL’s zal genereren met dezelfde content. Dit is gelukkig op te lossen zonder dat je de sitestructuur hoeft aan te passen. Dat doe je door zulke webpagina’s in te stellen als canonical. Hieronder lees je daar meer over.

Onbedoelde geïndexeerde search queries

Een nog lastiger te detecteren vorm van interne duplicate content. Soms staan search queries verkeerd ingesteld op een website. Hoe kan je dit herkennen? Als je een zoekopdracht invoert op een website en je vervolgens een zoekresultaat aanklikt wordt je doorverwezen naar de pagina… maar vaak met één klein verschil. Achter de URL wordt de zoekopdracht, de ‘search query’, toegevoegd na een vraagteken en alle zoektermen gescheiden met een plusteken zoals in het voorbeeld te zien: Het is niet de bedoeling dat deze, door de bezoeker gemodificeerde, URL wordt geïndexeerd in Google! Dat betekent dat webbezoekers door hun zoekgedrag op jouw website zelfstandig duplicate content creëren wat uiteraard niet de bedoeling is. Dit is eveneens eenvoudig op te lossen met het canonical-attribuut. Je wilt de pagina niet op noindex zetten, want zoekmachines moeten de hoofdpagina nog wel kunnen indexeren.

Gevolgen van duplicate content

Sinds Google de Panda update in 2011 en de Penguin updates in 2012 en 2013 uitrolde zijn de gevolgen van duplicate content groter geworden dan ze waren. Voor de updates was duplicate content alleen slecht voor de pagina’s met deze content erop, na de updates is het slecht geworden voor de algehele ranking van een website. Omdat Google altijd op zoek is naar de meest relevante zoekresultaten voor de gebruikers zal er van de pagina’s met duplicate content maar een worden weergeven in de zoekresultaten. Dit kan vervelend zijn wanneer Google niet de originele website pakt maar de website die de content gekopieerd heeft.

Minder crawltijd en minder geïndexeerde pagina’s

Zodra een crawler van Google op een website veel pagina’s met dezelfde content tegenkomt zal de crawler al snel stoppen. De website wordt dan als niet interessant gezien door Google. Dit kan ervoor zorgen dat crawlers van Google niet op de belangrijke pagina’s van een website crawlen. Hierdoor zijn deze pagina’s niet zichtbaar in de zoekresultaten. Google stel een limiet aan het aantal pagina’s dat het indexeert aan de hand van de PageRank of autoriteit van een website. In de Google Webmaster Tools kunt u de Google PageRank terugvinden. Het kan voorkomen dat Google vele pagina’s met duplicate content indexeert waardoor het limiet wordt bereikt. Dit kan ervoor zorgen dat andere belangrijke pagina’s niet in de index komen te staan.

Penalty voor gehele website

Als een website volgens Google de rangschikking wil manipuleren en gebruikers wil manipuleren door middel van duplicate content dan kan een website verwijderd worden uit de index van Google. Hierdoor is de website niet meer zichtbaar in de zoekresultaten wat een hele flinke straf is. Deze straf wordt niet zomaar uitgedeeld. Een website moet erg zijn best doen om dit te bereiken.

Oplossingen voor duplicate content

Wanneer een website beschikt over duplicate content zijn er een aantal oplossingen voor. Dit is een lijst met oplossingen voor duplicate content:

  • Duplicate content verwijderen; hierdoor geeft de URL een 404-code aan. Als een pagina veel inkomende links en bezoekers heeft dan is het verstandig om te kiezen voor de volgende oplossing.
  • 301-redirect; Door middel van een 301-redirect kan een beheerder aangeven dat een pagina permanent is verplaatst naar een andere locatie oftewel URL. Kies altijd voor een 301-redirect omdat deze linkjuice laat doorvloeien, een 302-redirect doet dit niet.
  • Redirect van http naar www; Het is belangrijk dat de pagina’s op een website toegankelijk zijn via een soort URL. Met een 301-redirect van www naar http of andersom worden problemen voorkomen.
  • Canonical tag; Met een canonical tag laat u Google weten welke URL de voorkeur heeft van een website.
  • Robots.txt; Een robots.txt bestand bij een website laat aan zoekmachines weten op welke pagina’s ze wel of niet mogen crawlen. Door duplicate content in een folder te zetten en deze folder te blokkeren zorgt ervoor dat u minder risico loopt. Google raadt deze oplossing wel af.
  • URL verwijderen; In Google Webmaster Tools is het mogelijk om een URL te verwijderen. Wanneer dit verzoek wordt aangevraagd moet de beheerder van de website zorgen dat de pagina een 404-code geeft.

Wilt u weten hoe uw website ervoor staat op het gebied van SEO? Doe dan onze gratis SEO check!

Online Marketing Consultant - Sasha Yazdi

Sasha

Directeur en SEO Strateeg

Onze website maakt gebruik van cookies om de gebruikservaring te verbeteren, door de site te gebruiken stemt u in met ons gebruik van de cookies.