Duplicate content: problemen en oplossingen | deel 2

Karel

5/5/2014

Zoekmachine optimalisatie

min leestijd

Karel

5/5/2014

Zoekmachine optimalisatie

min leestijd

In het eerste artikel zagen we dat je duplicate content op eigen domein zoveel mogelijk moet zien te vermijden. Ook duplicate content op twee of meer verschillende domeinen is niet wenselijk, met uitzondering van de situatie waarin je zelf een artikel schrijft voor je site, het vervolgens aanbiedt aan een andere site en Google het oorspronkelijke artikel op jouw site aanmerkt als het origineel.In het tweede deel van deze serie leer je hoe je duplicate content kunt opsporen en oplossen.

Hoe spoor je duplicate content op?

Duplicate content kun je op de volgende manieren opsporen:

Google Webmaster Tools

Ga in Google Webmaster Tools (GWT) naar Uiterlijk van Site Search > HTML-verbeteringen. Hier kun je zien of Google dubbele meta descriptions en/of title tags is tegengekomen op je site, wat zou kunnen duiden op duplicate content op je domein.

Google

Als je wilt checken of er kopieën van je artikel elders op het web staan, kun je een stuk tekst uit je artikel kopiëren en tussen dubbele aanhalingstekens invoeren in Google.Door dubbele aanhalingstekens te gebruiken zoekt Google naar plaatsen waar dat gehele blokje tekst in dezelfde volgorde op internet voorkomt.Ben je op zoek naar duplicate content op je eigen domein, gebruik dan het “site:" commando. Dit commando kun je in combinatie met andere zoekcommando's gebruiken.Vermoed je bijvoorbeeld dat er meerdere kopieën van je homepage op je eigen domein voorkomen, zoek dan in Google op “site:mijnsite.nl intitle:"de titel van mijn homepage"".

Copyscape

Een handige manier om te controleren of jouw artikel zonder toestemming door een andere site is overgenomen is Copyscape. Voer eenvoudigweg de URL van de pagina die je wilt controleren in en Copyscape speurt het web af naar mogelijke duplicaten van je artikel.

Oplossingen voor duplicate content

Als je duplicate content tegen bent gekomen, is het zaak om het weer op te lossen. Hieronder lees je verschillende manieren waarop je dit kunt doen.Kies de oplossing die voor jou het makkelijkst is en doe geen dingen dubbelop. Kies je bijvoorbeeld voor een 301-redirect, dan hoef je niet ook nog eens een canonical tag toe te passen.

1. Duplicate content verwijderen: 404

De eenvoudigste manier om met duplicate content om te gaan, is om het simpelweg te verwijderen. De verwijderde URL geeft dan een 404-code (pagina niet gevonden).Heeft de oude pagina inkomende links en bezoekersverkeer? Kies dan voor een 301-redirect.

2. Een 301-redirect

Met een 301-redirect geef je aan dat de pagina permanent verplaatst is naar een andere locatie. Een gebruiker die de duplicaat-URL invoert in zijn browser, wordt dan automatisch doorgeleid naar de juiste URL.Het voordeel van een 301-redirect is dat de linkjuice van de duplicaatpagina doorvloeit naar het origineel.Gebruikers die de oude URL in hun favorieten hebben opgeslagen, worden vanzelf doorgeleid naar de nieuwe URL en krijgen geen 404-foutmelding.Gebruik altijd een 301-redirect (permanent verplaatst) en geen 302-redirect (tijdelijk verplaatst). Een 302-redirect laat namelijk geen linkjuice doorvloeien.

3. Redirecten van http naar www

Om ervoor te zorgen dat alle pagina's op je site toegankelijk zijn via één type URL, moet je een 301-redirect aanleggen van http naar www (of andersom). Als je website gehost wordt op een Apache server, kun je de 301-redirect maken door je .htaccess-bestand aan te passen.Draait je site op een Microsoft IIS-server, dan maak je de nodige aanpassingen met behulp van de Internet Services Manager. Ga je hier liever niet zelf mee aan de slag, vraag dan je hostingprovider om de redirect voor je door te voeren.Stel vervolgens ook in Google Webmaster Tools je voorkeursdomein in. Klik hiervoor in GWT op het tandwielpictogram en klik op Site-instellingen. Stel je hier bijvoorbeeld de www-versie als je voorkeursdomein in, dan beschouwt Google alle links die hij tegenkomt naar de http-versie van je site als een link naar de www-versie.

4. De canonical tag

Met gebruik van de canonical tag kun je Google laten weten wat je voorkeurs-URL is (ook wel canonieke URL genoemd).Gebruik je zo'n canonical tag, dan geef je de linkjuice door net als bij een 301-redirect. Je kunt zoekmachines op de hoogte brengen van de canonieke pagina door een canonical tag toe te voegen aan het <head>-gedeelte van de niet-canonieke versie van de pagina.Is je homepage bijvoorbeeld toegankelijk via de niet-canonieke URL http://www.mijnsite.nl/index.html, dan voeg je onderstaande code aan het-gedeelte van die pagina toe om Google te laten weten dat http://www.mijnsite.nl je voorkeurs-URL is:

5. Robots.txt en meta robots

Met een robots.txt-bestand in je root directory kun je zoekmachines laten weten welke pagina's of folders ze wel en niet mogen crawlen. Als je duplicate content op een pagina en in een bepaalde folder hebt staan, blokkeer je die pagina en folder voor Googlebot door ze als volgt op te nemen in je robots.txt:

Je kunt dit ook op paginaniveau doen door een meta robots tag toe te voegen aan het-gedeelte van de pagina.Je kunt kiezen voor een noindex, follow of noindex, nofollow. In beide gevallen wordt de pagina niet geïndexeerd, maar bij een follow-commando volgt de zoekmachine wel alle links die op de pagina staan in tegenstelling tot het nofollow-commando.

Google raadt overigens het gebruik van robots.txt af en adviseert liever een andere oplossing te gebruiken. Als Googlebot de geblokkeerde pagina's met duplicate content niet kan crawlen, kan hij namelijk niet vaststellen dat die URL's naar duplicate content verwijzen en beschouwt hij de geblokkeerde URL's als unieke en afzonderlijke pagina's.

6. URL verwijderen in Google Webmaster Tools

Om een URL handmatig uit de index van Google te laten verwijderen, ga je in GWT naar Google-index > URL's verwijderen. Voordat je een verzoek tot verwijdering aanvraagt, moet je eerst de pagina verwijderen zodat ze een 404-code geeft en/of de pagina blokkeren met robots.txt of een robots noindex metatag.

7. URL-parameters blokkeren in Google Webmaster Tools

In GWT kun je bepaalde URL-parameters instellen, zodat Google alle URL's die die parameters bevatten negeert en niet in de index opneemt.Dit kan bijvoorbeeld handig zijn als je site URL's met sessie-id's gebruikt, die allemaal naar dezelfde content verwijzen. Om dit in te stellen ga je in GWT naar Crawlen > URL-parameters.

8. Plagiaat aanpakken

Heeft een andere site content van jouw site zonder toestemming overgenomen? Neem dan contact op met de host of webmaster van die site en verzoek om verwijdering van de content. Als dit niet helpt, kun je bij Google een verwijderingsverzoek indienen.Tot nog toe hebben gekeken naar wat duplicate content is en hoe je het kunt opsporen en oplossen. In het volgende en tevens laatste deel van deze artikelserie geef ik je nog wat praktische tips en adviezen om duplicate content te vermijden. >>> Lees hier deel 3 van deze reeks! <<<

Deel deze blog

Zoekmachine optimalisatie

Karel

Co-founder