Naar
boven

Google Webmasterhulpprogramma’s voor Dummies: 3. Siteconfiguratie – Crawlertoegang

In het vorige artikel in deze reeks (2. Siteconfiguratie – sitemaps) hebben we ervoor gezorgd dat we een sitemap hebben gemaakt en deze hebben aangemeld bij Google.

In de artikel gaan we ervoor zorgen dat Google (en andere zoekmachines) onze website ook daadwerkelijk kunnen “doorlopen”, ook wel crawlen genoemd. Tevens leren we in dit artikel ook hoe je bepaalde mappen of bestanden kunt uitsluiten van Google.

Siteconfiguratie – Crawlertoegang

Het tweede onderdeel wat we tegengekomen in de siteconfiguratie is “crawlertoegang”. Dit onderdeel geeft ons dus de mogelijkheid om de zoekrobot (crawler) instructies te geven.

Wat is een crawler?

Voordat je überhaupt in Google kan komen (in de zoekresultaten) zal Google eerst moeten weten welke pagina’s je website heeft. Tevens zal Google de inhoud van je pagina’s moeten doorlopen om later te kunnen bepalen voor welke zoekopdrachten jouw pagina interessant is.

Dit gebeurt met de zogenaamde Googlebot, ook wel crawler genoemd. Dit is overigens niets meer dan een robot die alle pagina’s van het web afstruint en de informatie opslaat in een grote database.

Nu moeten we er alleen voor zorgen dat we de Googlebot toegang geven tot onze website, en eventueel mappen of bestanden die we niet in Google willen hebben uitsluiten. Dit doen we door het uploaden van een bestand naar onze website genaamd: robots.txt. In de bestand vertellen we de Googlebot wat hij wel en niet mag doorzoeken en indexeren.

Stap 1: Ga naar het tabje robots.txt genereren

Wanneer je in het menu crawlertoegang hebt gekozen kun je in het horizontale menu “robots.txt genereren” kiezen:

Stap 2: Kies een standaardtype

Bij de eerste optie hebben we twee keuzes:

  1. Alles toestaan
  2. Alles blokkeren

Voor 99% van de webmasters geldt dat hier voor de eerste optie moet worden gekozen. Kies dus voor optie 1:

Stap 3: Geef aanvullende regels op

In deze stap kunnen we bepaalde mappen of bestanden uitsluiten. Stel dat we bijvoorbeeld bij elke pagina op onze website een optie hebben om deze te printen. Meestal worden daar ook echte “printvriendelijke” pagina’s van gemaakt. Oftwel, een compleet andere URL maar met dezelfde inhoud.

Een goed voorbeeld hiervan is Kieskeurig.nl. Op elke productpagina heb je hier de mogelijkheid om deze te printen:

Wanneer je daar op het printicoontje klikt wordt deze URL vertoond:

http://www.kieskeurig.nl/print/Panasonic/HDC-SD900/1F69D6CB8FAA417AB7754B715E2F6273.html?placeValuesBeforeTB_=savedValues&TB_iframe=true&height=300&width=490&modal=true

Wanneer we goed kijken zien we dat we plotseling in de map “print” terecht zijn gekomen (direct na de domeinnaam: www.kieskeurig.nl/print/…)

Aangezien we deze pagina’s niet in Google willen hebben (kans op duplicate content en verspilling van de bandbreedte van de Googlebot) gaan we deze uitsluiten met ons robots.txt bestand.

In de onderstaande afbeelding zie je hoe we dit hebben gedaan:

Tenslotte klikken we nog op “Regel toevoegen” en ons robots.txt bestand ziet er dan als volgt uit:

Stap 4: Robots.txt bestand uploaden naar onze website

Wanneer je op deze manier alle bestanden en mappen die je niet in Google wil hebt opgegeven kun je het bestand downloaden.

Het bestand sla je dan op en moet je uploaden naar de hoofddirectory van je website. Voor deze website betekent dat: www.karelgeenen.nl/robots.txt.

Opmerkingen

Allereerst is het belangrijk om te weten dat Google altijd eerst op zoek gaat naar een robots.txt bestand. Advies is dus ook om altijd een dergelijke bestand op je website te plaatsen.

Om er zeker van te zijn dat Google, en andere zoekmachines, je hele website kunnen doorzoeken moet er het volgende in je robots.txt bestand staan:

Dus User-agent allemaal (een sterretje) en Allow alles (een slash).

Verder is het ook belangrijk om te beseffen dat dit bestand ook “gevaarlijk” kan zijn indien niet goed toegepast. Wees er daarom voorzichtig mee. Wanneer je de bovenstaande instructies gebruikt kan er echter weinig mislopen. Twijfel je? Vraag dan aan je webbouwer of webbureau of dat het in orde is!

Meer leren over zoekmachine optimalisatie? Klik hier voor onze gratis e-mailcursus!

Met onze hulp bovenaan in Google?

Bekijk onze cursus zoekmachine optimalisatie, onze dienst of vul onderstaand formulier in:


Over de auteur:

Dit artikel is geschreven door .

Karel Geenen
Karel Geenen is medeoprichter van KG Online Marketing. Hierbinnen vallen dit weblog, onze Academy met online marketing cursussen en het Bureau voor online marketing diensten.
3 reacties op "Google Webmasterhulpprogramma’s voor Dummies: 3. Siteconfiguratie – Crawlertoegang"
  • Marcel zegt:
    03 Nov, 2011 om 20:58

    Bedankt Karel voor de duidelijke uitleg. Ik doe vrij weinig met webmastertools, maar als ik jouw artikelen hierover lees wordt het tijd om hier ook tijd in te steken! Ik kijk uit naar het volgende artikel… Gr, Marcel

    Reageren
  • Nadi zegt:
    17 Nov, 2011 om 11:18

    Dank voor de uitleg! Heel helder en duidelijk, geeft gelijk een goed beeld over de robots.txt.

    Reageren
  • Frans zegt:
    20 Mrt, 2012 om 20:05

    Zeer waardevol en bedankt

    Reageren

Reageren