Naar
boven

Robot.txt

Wat is een robot.txt? In het kort gezegd is een robot.txt een klein tekstbestandje dat ervoor kan zorgen dat bepaalde mappen of pagina’s van je website niet worden geïndexeerd door zoekmachines. Hoewel we hebben geleerd dat het belangrijk is om je pagina’s te laten indexeren om ze terug te laten komen in de zoekresultaten, kan het voorkomen dat je pagina’s hebt die niet bedoeld zijn voor zoekmachines. Dit kan zijn doordat de kwaliteit van een dergelijke pagina erg laag is, of duplicate content bevat. Robot.txt is echter geen beveiligingsoplossing, let dus op met het plaatsen van ‘geheime’ informatie.

Hoe werkt robot.txt?

Laten we voor het gemak even Google nemen als voorbeeld van een zoekmachine. (Overigens kan robot.txt voor iedere zoekmachine apart worden ingezet). Een Googlebot of crawler genoemd doorloopt iedere pagina voor het indexeren van een website. Alle informatie wordt opgeslagen in een grote database. Wanneer Google hiermee begint, kijkt zij eerst of er een robot.txt is geplaatst. Wanneer dit niet het geval is gaat Google er vanuit dat alle pagina’s geïndexeerd mogen worden. Robot.txt is dus een soort wegwijzer voor de crawler.

Robot.txt versus meta robots

Een verder ontwikkeld alternatief voor robot.txt is meta robots. Bij het plaatsten van een meta robot op een pagina wordt deze pagina wel geopend door de crawler. Vervolgens kunnen er 2 opties worden aangeven, die bij een robot.txt bestand ontbreken. Allereerst is dat de index/noindex optie. Hierbij kan, net als bij robot.txt, aangegeven worden of een pagina geïndexeerd mag worden door zoekmachines of niet. De tweede optie is follow/nofollow. Hiermee kan aangegeven worden of bepaalde links van een dergelijke pagina wel of niet gevolgd mogen worden. Noindex + follow geeft aan dat een pagina niet geïndexeerd mag worden, pagina’s waarnaar gelinkt wordt vanaf die pagina daarentegen wel. De laatst genoemde optie is niet mogelijk bij robot.txt.

 

Zelf leren hoe je hoger in Google scoort?

Bekijk cursus nu!