Heel vaak kan je je afvragen waarom zou je URL’s uit je Google index willen halen? De meeste website willen juist zo veel mogelijk URL’s in de index krijgen om zo zoveel mogelijk traffic naar de website te geneneren. Ook ik heb vroeger de fout gemaakt om een website te ontwikkelen met één template en in de URL met parameters te werken. Het voordeel hiervan is dat er maar één pagina beheerd hoeft te worden en de meeste webmasters hebben altijd te weinig tijd dus is deze techniek vrij handig.

Nu de website met SEO vriendelijke URL’s de lucht in is gegaan is het lastig wanneer de oude website geïndexeerd is om de index weer schoon te krijgen. De geïndeerde URL’s hadden de volgende vorm:
http://www.domeinnaam.nl/?parameter1=…&parameter2.
Op deze manier waren er ruim 60 URL’s in de Google index tercht gekomen. De nadelen van een dergelijk URL gebruik zullen allicht bekend zijn? Zo is er een enorme kans op duplicate URL’s (wanneer parameters omgedraaid worden), is de klik-kans kleiner op dergelijke minder nette URL’s en is de beschrijving vaak slecht doordat de parameters vaak niet vertellen waar de pagina over gaat. Dat laatste was bij mij echter niet van toepassing omdat ik redelijk nette beschrijvende teksten had gebruikt.

Hoe krijgen we zulke URL’s uit de index om een schone index te handhaven? Omdat de parameters direct in de root van de URL naar voren kwamen was er geen mogelijkheid om een pagina (bijvoorbeeld index.php) uit te sluiten van indexatie. Wel heb ik met een niet geldige regel in de robots.txt file een commando uitgevoerd dat mijn parameters laat uitsluiten van indexatie. Via de Google webmastertools is netjes te volgen hoe de spider omgaat met deze regel. Onder ‘diagnose’ – ‘webcrawl’ staan inmiddels 8 URL’s die niet toegankelijk waren voor de spider. Google geeft de melding URL beperkt door robots.txt ondersteund met de datum van benaderen.

De code die in mijn robots.txt is geplaatst ziet er als volgt uit:

User-agent: Googlebot
Disallow: /*menuId
Disallow: /*sub
Disallow: /*inhoud

Het sterretje geeft aan dat de parameters niet geïndexeerd mogen worden, resultaat is dat dit werkt. Handig ook wanneer je gebruikt maakt van affiliates en deze er voor zorgen dat je affiliate URL’s in de index terecht zijn gekomen.

Wat ik met de website had moeten doen was een simpele URL Mod Rewrite (het herschrijven van de URL’s). Hierdoor had ik:

  • nettere URL’s in de Google Index gehad;
  • Meer bezoek kunnen genereren;
  • Minder energie hoeven te steken in het omzetten van de website en het uitsluiten van de geïndexeerde URL’s.

Mijn advies is dus ook altijd om goed na te denken over je URL-structuur en hoe je je website wil laten indexeren.


    Warning: Declaration of Invent_Walker_Comment::start_lvl(&$output, $depth, $args) should be compatible with Walker::start_lvl(&$output, $depth = 0, $args = Array) in /home/p0002/domains/uppersearch.nl/public_html/wp-content/themes/harmony/library/Invent/Walker/Comment.php on line 0

    Warning: Declaration of Invent_Walker_Comment::end_lvl(&$output, $depth, $args) should be compatible with Walker::end_lvl(&$output, $depth = 0, $args = Array) in /home/p0002/domains/uppersearch.nl/public_html/wp-content/themes/harmony/library/Invent/Walker/Comment.php on line 0

    Warning: Declaration of Invent_Walker_Comment::start_el(&$output, $comment, $depth, $args) should be compatible with Walker::start_el(&$output, $object, $depth = 0, $args = Array, $current_object_id = 0) in /home/p0002/domains/uppersearch.nl/public_html/wp-content/themes/harmony/library/Invent/Walker/Comment.php on line 0

    Warning: Declaration of Invent_Walker_Comment::end_el(&$output, $comment, $depth, $args) should be compatible with Walker::end_el(&$output, $object, $depth = 0, $args = Array) in /home/p0002/domains/uppersearch.nl/public_html/wp-content/themes/harmony/library/Invent/Walker/Comment.php on line 0

    Pingback: Google en de robots.txt - SEO @ markbovenkerk.nl