Naar
boven

Wat jij kunt leren over Robots.txt

Je hebt al wel eens gehoord van robots.txt, en hopelijk gebruik je deze ook. Zo niet: dit is een tekst-bestand op je website waarin je commando’s geeft aan de crawler/spider van een zoekmachine. Er zijn echter een aantal zaken die je moet weten over dit simpele tekstbestand. Hier zijn ze op een rijtje:

Publiek

Wanneer je weet dat het doel van het robots.txt bestand instructies aan de zoekmachine geven is, zou je misschien denken dat deze ook alleen door zoekmachines gelezen kan worden. Fout! Dit bestand is voor iedereen toegankelijk (voorbeeld). Wanneer je dus niet wilt dat een bestand zoals “secret.php” wordt geïndexeerd, plaats dan niet de code “Disallow:  /secret.php”, aangezien iemand met iets kwaad in de zin weet waar deze pagina staat. Gebruik dus alleen commando’s voor pagina’s en mappen die niet privé zijn.

Sitemaps

Van een snelle blik op het robots.txt bestand van Karel Geenen kun je leren dat er weinig nodig is voor een goed bestand. Namelijk, toestaan om alle pagina’s te indexeren en een sitemap om de zoekmachine te ondersteunen.

Een sitemap maken lijkt veel werk, maar daar is natuurlijk een oplossing voor. Voor WordPressgebruikers: deze wordpress plugin maakt automatisch een sitemap, zodat dit snel en eenvoudig gaat.

Duplicate content/Dubbele pagina’s

Als je een wordpress blog hebt, kun je gebruik maken van een herschreven URL. Dit is mooi, maar er zit een nadeel aan: duplicate content. De pagina http://www.website.nl/?p=24 is bijvoorbeeld dezelfde als http://www.website.nl/10/artikel-naam-in-url/. Dit kun je oplossen met de volgende regel: “Disallow: /*?”. Zo verbied je een zoekmachine de oude URL’s te indexeren, zodat je maar één versie van elke pagina krijgt. Een andere oplossing vindt je op dit artikel van Karel Geenen over een goede sitestructuur.

Tip’s

  • Schrijf robots.txt in kleine letters, sommige webservers zijn hoofdlettergevoelig en zullen anders een “404 – Pagina niet gevonden” teruggeven.
  • Valideren is nooit verkeerd. Ook je robots.txt kun je dus beter laten valideren. Hiervoor kun je onder andere de google webmaster tools gebruiken.
  • Gebruik robots.txt om een bepaald bestandstype, die je niet in zoekmachines wilt zien verschijnen, uit te sluiten. Dit doe je met “Disallow: /*.exe$”.
Meer leren over zoekmachine optimalisatie? Klik hier voor onze gratis e-mailcursus!

Met onze hulp bovenaan in Google?

Bekijk onze cursus zoekmachine optimalisatie, onze dienst of vul onderstaand formulier in:


Over de auteur:

Dit artikel is geschreven door .

Simon
Simon maakt professioneel website's en is een specialist op veilige websites. Wist U dat meer dan de helft van alle websites (> 50%) wel te hacken is? Neem contact op!
5 reacties op "Wat jij kunt leren over Robots.txt"
  • Groene webhosting zegt:
    12 Jan, 2011 om 13:05

    Door het gebruik van de reguliere expressie /*? zul je ook bijvoorbeeld zoekresultaatpagina’s en wellicht andere pagina’s welke variabelen gebruiken afschermen voor google.

    Een wordpress zoekresultaatpagina gebruikt bijvoorbeeld ?s=.
    Het is wellicht handiger gebruik te maken van caonical url’s en 301 redirects (voor beiden zijn diverse plugins) om duplicate content te voorkomen.

    Reageren
  • Parkeren Schiphol zegt:
    12 Jan, 2011 om 14:51

    Geen verkeerd artikel maar ik zie wel graag iets meer diepgang als je kijkt naar de andere artikelen en de minimale kennis die 95% van de bezoekers wel heeft.

    Reageren
  • Erik (bedrijfopzetten.nl) zegt:
    13 Jan, 2011 om 09:13

    Eigenlijk gebruik ik de robots.txt steeds minder. Voor service pagina’s gebruik ik meestal noindex,dofollow (in de sectie of bijvoorbeeld via de X-Robots-Tag HTTP header. Voor dupe gebruik ik de cannonicals.

    Reageren
  • Roger zegt:
    13 Jan, 2011 om 14:14

    Op Search Engine Roundtable werd vorige week nog verwezen naar Googler John Mu die suggereerde dat sitebeheerders de robots.txt misschien zelfs beter helemaal kunnen weglaten… Die issues die je meldt, zou men beter op andere manieren moeten oplossen (bijvoorbeeld zoals Erik hierboven aangeeft).

    Reageren
  • NEWTRAFFIC zegt:
    04 Mei, 2011 om 10:59

    Een eenvoudige en heldere uitleg over een belangrijke file in je website. Een keer goed neerzetten is echter voldoende. Duplicate content en sitemaps zijn eigenlijk off-topic hier en hiervoor zijn verschillende mogelijkheden.

    Reageren

Reageren