On m'a souvent posé la question de savoir comment gérer les divers fichiers et directives qui permettaient d'éviter l'indexation de certaines pages d'un site par Google.

Je vois régulièrement des erreurs dans leur mise en œuvre. Ceci souvent, car les notions de crawl et d'indexation ne sont pas très claires pour tous. Essayons de clarifier et de voir comment on parle aux robots des moteurs de recherche.



Pourquoi vouloir empêcher l'indexation d'une page ou d'un répertoire ?

Les raisons possibles sont multiples.

On peut par exemple considérer que les résultats de recherche sur un site ne devront pas être indexés par Google.

Ou bien que certaines pages d'un site sont trop pauvres (par exemple, des questions sans réponse dans un forum) et que leurs prises en compte peut avoir un effet négatif (filtre Panda).

On pourra aussi ne pas vouloir indexer les PDF de son site, car ils sont dupliqués avec le même contenu en html.

Ceci peut aussi permettre de ne pas indexer certaines pages qui provoqueraient des contenus dupliqués.

Etc.

La balise meta noindex

Cette balise est a peu près la seule qui vous garantit que votre page ne sera pas indexée, et donc jamais affichée dans les résultats de Google.

Sa mise en œuvre est assez simple, vous devrez l'insérer dans la partie <head> de votre page. Elle aura cette syntaxe :

<meta name="robots" content="noindex">

La protection par les en-tete HTTP

Si vous avez besoin d'empêcher l'indexation d'un répertoire complet, vous utiliserez plutôt le fichier .htaccess. Ceci vous évitera d'avoir à marquer une par une les pages et autres contenus du répertoire.

Exemple pour empêcher l'indexation du contenu d'un répertoire :

Le plus simple est de créer un fichier .htaccess directement dans le répertoire concerné, et d'y mettre ceci :

Header set X-Robots-Tag "noindex"

Exemple, pour empêcher l'indexation de tous les PDF de votre site

<FilesMatch "\.pdf$"> Header set X-Robots-Tag "noindex" </Files>

Plus d'infos ici de la part de Google.

Attention au fichier robots.txt

Ce fichier permet de donner des directives aux moteurs de recherche.

On l'utilise généralement pour dire aux robots de ne pas aller crawler une page ou un répertoire. Quand ils respectent cette indication, ils n'iront pas sur la partie concernée.

Un exemple :

User-agent: * (sur cette ligne on indique avec une étoile que la suite des directives s'applique à tous les robots)

Disallow: /rep_perso/ (sur cette ligne, on leur dit de ne pas aller crawler le répertoire que l'on a nommé « rep_perso »)

Attention à ne pas croire que vous allez cacher des fichiers aux hackers en le mettant en disallow dans le robots.txt. En effet, vu que ce fichier se trouve toujours à la racine du site, il est justement facile d'identifier ce que vous souhaitez planquer.

Erreurs fréquentes :

Imaginez que vous ne vouliez pas que Google indexe votre répertoire nommé « rep_perso ». Vous pourriez être tenté de l'indiquer comme nous l'avons fait dans le fichier robots.txt

De même pour une page que vous ne voulez pas voir apparaître dans l'index de Google.

Et bien la plus grosse erreur consiste à se limiter à bloquer vos pages avec le fichier robots.txt, surtout si vous pensez faire mieux en incluant le noindex dans la page !

Pourquoi est-ce une erreur ?

Tout d'abord, Google est très explicite sur ce point. Une directive dans le robots.txt ne l'empêchera absolument pas d'indexer la page, car la directive ne concerne que le crawl de celle-ci.

Il suffit donc que votre page reçoive un lien externe pour que Google décide de la présenter dans ses résultats, même si vous lui avez demandé de ne pas la crawler.

Souvent, il utilisera comme title l'ancre du lien qui pointe vers votre page. Simplement, il n'affichera pas de snippet (le petit résumé sous le titre)

Ensuite, vous risquez de donner deux directives contradictoires, et c'est souvent l'erreur la plus fréquente. En effet, si vous interdisez le crawl de la page avec le robots.txt, comment voulez-vous que Google découvre que vous avez mis une meta noindex sur celle-ci ?

Et le nofollow dans tout ça ?

Pour cette balise, le principe est simple, elle sert juste à dire à Google que vous n'avez pas confiance dans la page vers laquelle vous faites le lien.

Au début, Google nous a raconté que ses robots ne suivraient pas les liens tagués de cette manière. Aujourd'hui, on sait que c'est faux, Google suit le lien. Le seul effet que l'on peut actuellement croire est que cette balise empêche la transmission de PageRank. Après, cela transmet peut-être d'autres choses, comme de l'autorité, du trust, mais rien ne le prouve vraiment.

Il fut un temps lointain ou cet attribut permettait aussi de faire du PR sculpting, mais ceci ne marche plus depuis longtemps, car Google répartit le PR en fonction du nombre total de liens dans la page, qu'ils soient nofollow ou pas.

Donc si vous voulez empêcher l'indexation d'une page, ce n'est pas la bonne solution !

En conclusion

J'espère que ce petit guide vous évitera des erreurs ponctuelles qui peuvent être graves en terme de conséquences. Tant que j'y suis, je vous avais parlé de quelques petits outils qui permettent de suivre ce que vous avez fait en vous affichant pour chaque page si elle est en noindex ou en nofollow, ils sont ici.