Ongeveer een half jaar geleden heb ik een post geschreven over het weghalen van oude, niet correcte, webpagina’s uit de Google index. Zie hiervoor de post URL’s uit de google index. In deze post leg ik de functie ‘disallow’ in de robots.txt uit. Omdat ik hier te maken heb met parameters in de de bestandsnaam index.php maak ik gebruik van de asterix karakter:

User-agent: Googlebot
Disallow: /*menuId
Disallow: /*sub
Disallow: /*inhoud

Een controle op de index van de website waarop ik dit heb toegepast laat het volgende zien: 

Index Google BTB 2009
Deze url’s zijn ook alleen maar te zien op het moment dat ik op de vermelding van Google klik:
Om de meest relevante resultaten te tonen, hebben we er een aantal weggelaten die heel sterk lijken op de reeds weergegeven 8. Indien gewenst kunt u de zoekbewerking herhalen met de weggelaten resultaten.”

Hieruit kan ik dus concluderen dat met het inrichten van de robots.txt niet de URL’s uit de Google index zullen verdwijnen op het moment dat ze reeds geindexeerd zijn geweest. Google zal alleen de title en description niet meer bij het resultaat weergeven. In plaats daarvan toont Google alleen nog maar de URL van de pagina. Ook zullen deze resultaten niet meer naar voren komen bij gewone zoekopdrachten.

Hoe kan je er voor zorgen dat de index van Google van het domein weer echt kloppend wordt?

Ik denk dat dit met een server side redirect 301 van de URL “index.php met parameter” naar “index.php” of met de canonical tag waar op internet al meerdere malen over is geschreven kan. Daarom heb ik op dit moment een test lopen waarin ik met PHP de URL uitlees. Wanneer er een parameter in de URL staat er een 301 redirect wordt gegenereerd naar de correcte URL. Voor de geintresseerde hierbij de code:

Server Side Redirect in PHP

Nu ben ik zeer benieuwd naar het resultaat en hoelang het duurt voordat de URL’s verdwenen zijn.

Comments

Leave a comment