On m'a souvent posé la question de savoir comment gérer les divers fichiers et directives qui permettaient d'éviter l'indexation de certaines pages d'un site par Google.
Je vois régulièrement des erreurs dans leur mise en œuvre. Ceci souvent, car les notions de crawl et d'indexation ne sont pas très claires pour tous. Essayons de clarifier et de voir comment on parle aux robots des moteurs de recherche.
Pourquoi vouloir empêcher l'indexation d'une page ou d'un répertoire ?
Les raisons possibles sont multiples.
- On peut par exemple considérer que les résultats de recherche sur un site ne devront pas être indexés par Google.
- Ou bien que certaines pages d'un site sont trop pauvres (par exemple, des questions sans réponse dans un forum) et que leurs prises en compte peut avoir un effet négatif (filtre Panda).
- On pourra aussi ne pas vouloir indexer les PDF de son site, car ils sont dupliqués avec le même contenu en html.
- Ceci peut aussi permettre de ne pas indexer certaines pages qui provoqueraient des contenus dupliqués.
- Etc.
La balise meta noindex
Cette balise est a peu près la seule qui vous garantit que votre page ne sera pas indexée, et donc jamais affichée dans les résultats de Google.
Sa mise en œuvre est assez simple, vous devrez l'insérer dans la partie <head> de votre page. Elle aura cette syntaxe :
<meta name="robots" content="noindex">
La protection par les en-tete HTTP
Si vous avez besoin d'empêcher l'indexation d'un répertoire complet, vous utiliserez plutôt le fichier .htaccess. Ceci vous évitera d'avoir à marquer une par une les pages et autres contenus du répertoire.
Exemple pour empêcher l'indexation du contenu d'un répertoire :
Le plus simple est de créer un fichier .htaccess directement dans le répertoire concerné, et d'y mettre ceci :
Header set X-Robots-Tag "noindex"
Exemple, pour empêcher l'indexation de tous les PDF de votre site
<FilesMatch "\.pdf$"> Header set X-Robots-Tag "noindex" </Files>
Plus d'infos ici de la part de Google.
Attention au fichier robots.txt
Ce fichier permet de donner des directives aux moteurs de recherche.
On l'utilise généralement pour dire aux robots de ne pas aller crawler une page ou un répertoire. Quand ils respectent cette indication, ils n'iront pas sur la partie concernée.
Un exemple :
User-agent: * (sur cette ligne on indique avec une étoile que la suite des directives s'applique à tous les robots)
Disallow: /rep_perso/ (sur cette ligne, on leur dit de ne pas aller crawler le répertoire que l'on a nommé « rep_perso »)
Attention à ne pas croire que vous allez cacher des fichiers aux hackers en le mettant en disallow dans le robots.txt. En effet, vu que ce fichier se trouve toujours à la racine du site, il est justement facile d'identifier ce que vous souhaitez planquer.
Erreurs fréquentes :
Imaginez que vous ne vouliez pas que Google indexe votre répertoire nommé « rep_perso ». Vous pourriez être tenté de l'indiquer comme nous l'avons fait dans le fichier robots.txt
De même pour une page que vous ne voulez pas voir apparaître dans l'index de Google.
Et bien la plus grosse erreur consiste à se limiter à bloquer vos pages avec le fichier robots.txt, surtout si vous pensez faire mieux en incluant le noindex dans la page !
Pourquoi est-ce une erreur ?
Tout d'abord, Google est très explicite sur ce point. Une directive dans le robots.txt ne l'empêchera absolument pas d'indexer la page, car la directive ne concerne que le crawl de celle-ci.
Il suffit donc que votre page reçoive un lien externe pour que Google décide de la présenter dans ses résultats, même si vous lui avez demandé de ne pas la crawler.
Souvent, il utilisera comme title l'ancre du lien qui pointe vers votre page. Simplement, il n'affichera pas de snippet (le petit résumé sous le titre)
Ensuite, vous risquez de donner deux directives contradictoires, et c'est souvent l'erreur la plus fréquente. En effet, si vous interdisez le crawl de la page avec le robots.txt, comment voulez-vous que Google découvre que vous avez mis une meta noindex sur celle-ci ?
Et le nofollow dans tout ça ?
Pour cette balise, le principe est simple, elle sert juste à dire à Google que vous n'avez pas confiance dans la page vers laquelle vous faites le lien.
Au début, Google nous a raconté que ses robots ne suivraient pas les liens tagués de cette manière. Aujourd'hui, on sait que c'est faux, Google suit le lien. Le seul effet que l'on peut actuellement croire est que cette balise empêche la transmission de PageRank. Après, cela transmet peut-être d'autres choses, comme de l'autorité, du trust, mais rien ne le prouve vraiment.
Il fut un temps lointain ou cet attribut permettait aussi de faire du PR sculpting, mais ceci ne marche plus depuis longtemps, car Google répartit le PR en fonction du nombre total de liens dans la page, qu'ils soient nofollow ou pas.
Donc si vous voulez empêcher l'indexation d'une page, ce n'est pas la bonne solution !
En conclusion
J'espère que ce petit guide vous évitera des erreurs ponctuelles qui peuvent être graves en terme de conséquences. Tant que j'y suis, je vous avais parlé de quelques petits outils qui permettent de suivre ce que vous avez fait en vous affichant pour chaque page si elle est en noindex ou en nofollow, ils sont ici.
Bonjour, très bon article. Concernant le robots.txt il est très important aussi pour dire à Google d'arrêter de tenter de crawler des pages qui ont été fermées. En analysant les logs et notamment les pages appelées par Google bot, je me suis rendu compte cette année qu'il cherchait à crawler des pages (satellites) fermées depuis 2010! Et comme il y en avait des centaines de milliers, mais pages plus récentes et de bonne qualité n'étaient pas crawlé es en partie et donc pas indexées. Donc attention à regarder où se balade Google...
Une petite mise au point toujours utile. On a parfois tendance à mélanger ses pinceaux.
Une autre balise qui peut être intéressante pour les "vieux" sites qui sont indexés chez DMOZ, il s'agit de la balise META Robots Noodp. Elle permet d'éviter de voir sa description chez DMOZ venir remplacer celle de sa balise Meta Description dans les SERP de Google.
@ Christophe
Marrant, j'en parlais justement ici http://www.educaref.fr/recherche-detective-prive-seo-pour-resoudre-lenigme-de-banksy/
Il y a aussi la meta "noydir" pour la même chose à partir du yahoo directory.
Bonsoir,
Pour ma part, j'utilise le plugin SEO wordpress pour indiquer si l'article ou la page doit être indexé. Parfois ça marche et parfois non.
Merci pour ce petit guide
@ Hafid
Heureusement que ta vie n'est pas en jeu 🙂 A ta place j'oublierais ce plugin. Lequel est-ce ?
Salut Sylvain
Deux liens utiles si tu le permets :
- Ma présentation sur le sujet au SEO Campus 2013 (qui complète ce que tu dis ci-dessus) :
http://www.abondance.com/actualites/20130318-12359-seo-campus-indexation-et-desindexation.html
- Un article sur la désindexation de fichiers PDF :
http://www.abondance.com/actualites/20130701-12840-desindexation-de-fichiers-pdf-bonne-ou-mauvaise-pratique.html
Et merci pour ton article !!
A++
Hello,
Petite question : quid si on arrive après la bataille et qu'on souhaite désindexer des ressources malencontreusement indexées (images, pdf, etc.), comment procéder ? J'imagine que la seule option viable est la noindex en en-tête HTTP, n'est-ce pas ?
@ Olivier
Merci pour ces compléments utiles.
@ Robert
Peu importe, le tout est que la meta noindex soit mise en place sur la ou les pages concernées.
Sinon, j'ai oublié d'en parler dans l'article, mais Google permet de désindexer une page déjà indexée en utilisant Google Webmasters Tools. Voir dans : index Google > URL à supprimer
Le robots.txt, ce n'est effectivement pas la sécurité, ou plutôt je suis tenté de dire, ce n'est plus la sécurité.
Je trouve que cela l'était fut un temps (pour les pages non linkées j'entends)... et je trouvais cela plutôt logique.
En plus, si le paragraphe de Google dont tu parles est assez explicite, celui qui précède nous amène à une situation un peu bizarre : "Un fichier robots.txt n'est nécessaire que si votre site contient des informations que vous ne souhaitez pas voir indexées dans les moteurs de recherche."... Je dis cela parce que je ne vois pas trop (mais je manque peut-être d'imagination) dans quel(s) cas on pourrait avoir envie que les informations de la page ne soit pas indexée par les moteurs, mais accessibles au public puisque l'url, elle, est indexée.
Un peu de la même façon, je ne vois pas trop l'intérêt (là encore, peut-être que je manque d'imagination) de vouloir qu'une page soit indexée si on ne veut pas que Google la crawle ? L'inverse oui, mais ça ?
@Sylvain
Merci pour ton retour.
Il est impossible d'ajouter une balise noindex au code source d'une image ou d'un PDF (contrairement à une page HTML standard), d'où ma question.
Pour le formulaire de désindexation dans GWT, en effet, c'est pratique. A prendre avec des pincettes toutefois, car aussitôt désindexées, les pages sont souvent ré-indexées par Google. Il faut donc veiller à rapidement apposer une balise noindex lorsque sur les contenus supprimés de Google par ce biais.
Merci Sylvain pour ce post..
C'est toujours intéressant de lire et relire ce qui semble déjà acquis..! Bon, le mieux en fait, c'est de réfléchir à 2 fois avant de mettre un contenu, cela évite ainsi des manipulations 🙂 ..L'utilisation du fichier htaccess est en effet bien plus puissant pour certaines tâches et son utilisation sous optimisée, j'en parle ici : http://www.mauricelargeron.com/parametrer-les-acces-a-son-serveur/
Bonjour Sylvain,
tu dis dans ton article à propos de la balise meta noindex "Cette balise est a peu près la seule qui vous garantit que votre page ne sera pas indexée" mais pourtant je me rappelle très bien de cet article qui m'avait marqué à l'époque (https://blog.axe-net.fr/un-htaccess-bloque-t-il-google/) dans lequel tu précisais qu'il était arrivé qu'une page en noindex soit malgré tout indexée par Google car des liens pointaient vers cette page.
Ma question est donc la suivante : peut-on réellement se fier à la meta noindex ? J'ai prévu de faire quelques tests à ce sujet, pour vérifier, mais je suis malgré tout preneur de ton avis.
Bonjour,
je recommande l'utilisation d'un fichier robots.txt a la racine du site, ou de répertoires, et d'éviter des regles regex dans celui-ci. Dans le crawl que nous effectuons, il y a un nombre croissant de fichiers robots txt contenants des pages html, ou des sites map, ou des listes d'urls … bref, sachez que dans ce cas, le fichier est tout bonnement ignoré.
L'analyse se fait sur ce principe :
1 - détection de la commande USER-AGENT
2 - notre robot est-il dans la liste, si oui, prise en compte ou ignoré (le signe * déclenche une prise en compte)
3 - lecture ligne par ligne en deux partie, le séparateur est 2 points (:)
- Disallow déclenche une prise en compte de restriction
- ce qui suit est analysé puis traduit en url absolu pour être ajouté a une liste d'url interdites a crawler
le reste (Allow) est ignoré par défaut (ce qui n'est pas interdit est autorisé par défaut).
PS: le fichier robots.txt peut contenir des url de sitemap, mais pas le sitemap lui-même.
@ Cedric
Il y en a un qui suit !
Et heureusement, car sur l'autre article, je voulais parler de page en disallow (dans le robots.txt) et pas en noindex. Je vais donc aller corriger l'ancien article (merci).
Sinon, je n'ai pas vu d'exemple de pages indexées alors qu'elle ont une meta noindex.
Un article intéressant... Néanmoins je trouve dommage que la meilleure technique pour empêcher l'indexation (et le crawl) n'ait pas été abordée : le javascriptage de liens... Peut-etre que ça le sera dans un prochain article 😉
Merci encore 😉
@ RocketSEO
Hum... C'est un sujet connexe, mais pas du tout le meilleur moyen d'empêcher l'indexation d'une page.
Tu auras beau planquer tous les liens que tu veux, il suffit que quelqu'un t'en fasse un et te voici revenu à la case départ.
Bon, au delà de ça, je me méfies aussi des capacités de Google à interpreter le javascript.
@Sylvain, après l'idée, c'était quand même de sécuriser le truc avec des balises noindex, si jamais le site reçoit des BL sur des liens JS. J'aurais du être plus explicite, 😉
En résumé :
=> blocage du crawl : via je javascriptage
=> blocage de l'indexation : via balises no index
Enfin, je suis tout à fait d'accord avec toi sur la capacité de Google à interpréter le JS. En fait, je pense personnellement que ce n'est pas une question de "capacité à interpréter", mais plutôt de "capacité à crawler".
En effet, si demain Google souhait crawler en plus (du html) l'intégralité des fichiers JS du web, il devrait alors multiplier ses capacités serveur par XXXX.
La question est : pourquoi ferait il cela? pour débusquer les référenceurs qui cachent des liens en JS ? Je ne suis pas certain que cela soit un investissement rentable pour Google.
Enfin, tout cela reste des suppositions bien entendu !
Merci encore Sylvain,
PS : les SPAMCO sur ton blogue me manquent 🙂 snif... lol
Super article Sylvain merci.
C'est clair le fichier robots.txt c'est le parjure total !!! C'est la vaste fumisterie du web, c'est un peu comme mettre une pancarte "chien méchant" sur ton portail de maison, inutile si :
- ton chien est un caniche, chiwawa,...
- si tu n'as pas de chien
- si ton chien est du genre à se coucher dès quelqu'un arrive en attendant sa carresse
Je vais surement dire une
conneriebêtise mais t'as pas parlé de "rel canonical" ?@ 256 couleurs
Tu ne dis pas de bêtise, je n'en ai pas parlé en effet 🙂
La balise canonical peut aussi être une solution, notamment dans le cas de pages dupliquées. On indique alors à Google de prendre en compte la page "maitresse".
Elle a toutefois pour défaut (dans certains cas) de faire consommer du temps de crawl par le robot. La noindex est plus abrupte et permettra d'économiser le temps pour qu'il se concentre sur d'autres pages.
Dommage de ne pas évoquer ici l'utilité du meta "EXPIRES" pour l'automatisation de la désindexation des contenus 'consommés'
Les bases les bases les bases mais c'est tellement important ... combien j'en vois des clients qui ne comprennent pas pourquoi la version dev de leur site a été indexée ... "pourtant j'avais mis un robot.txt" ... bref les bases - c'est important donc c’est important de les rappeler (de les marteler?)
@ Antonin
Bonne remarque ! Mais je vais refaire un test car j'ai vu Google ne pas vraiment la prendre en compte avec des pages qui la contenaient mais un contenu toujours indexé, et surtout un ranking absolument pas affecté.
Bref, je fais un test pour ne pas dire de bêtises.
Bonjour,
Voilà un article qui tombe à pic ou presque. Il est bon de revoir ces basiques mais je me demandais si vous aviez des retours concernant l'utilisation du système de traitement des paramètres dans GWT. Concrètement, je récupère un site et je constate qu'il a plusieurs dizaines de milliers de 404 suite à l'utilisation d'une navigation à facettes en mousse. Je n'ai jamais eu besoin de cet outil et au cours de mes recherches, de nombreuses personnes affirment que l'outil n'est pas vraiment pris en compte par Google.
Les pages qui doivent disparaitre sont déjà en noindex, elles ne sont pas bloquées par les robots et je traite toutes les erreurs d'exploration (remontées par Google) dans l'outils de suppression manuelle d'URL. Je pense que ma méthode est bonne et qu'il suffit d'attendre mais un avis extérieur ne ferait pas de mal. Dois mettre en place le blocage par paramètre d'URL dans GWT ou surtout pas car la page ne serait plus crawlée ?Je n'ai jamais eu autant de pages à désindexer.
Merci d'avance
Bonjour,
je débute seulement dans le référencement naturel. J'ai beaucoup parcouru votre blog, et c'est parfois compliqué de tout comprendre, mais je pense que votre blog est surtout utile pour une communauté de référenceurs (étant donné que je vois à peu près les mêmes personnes poster ici).
Le fait est que j'ai beaucoup entendu parler de tout ce qui concerne les fichiers robots.txt, mais je ne connaissais pas toutes ces possibilités de configurations.
Sur le site internet d'une agence, j'ai trouvé une espèce de "guide" qui m'a pas mal aidé à comprendre les principes de base du référencement naturel, mais dedans ils n'évoquent pas l'utilisation du fichier robots.txt :
-http://rankerz.fr/guide/definition-referencement-naturel/
Pour faire court, dans ce guide, ils apparentent le référencement à du jus, et Google à un contrôleur qualité à qui on soumet ce jus.
Dans le cadre du robots.txt, est-ce que c'est une manière de ne pas passer les pages au contrôle de Google, pour améliorer la qualité globale du site internet, ou est-ce que le fait de ne pas désindexer les pages n'a aucun impact sur le référencement des autres pages ?
Je ne sais pas si j'ai été assez clair dans ma question mais j'ai du mal à exprimer ce problème encore un peu flou dans ma tête...
@ Mathias
Pour faire court aussi de mon côté.
Avec le robots.txt on peut par exemple dire aux robots de ne pas aller crawler un certain nombre de pages d'un site. Le crawler aura alors plus de temps pour celles pour lesquelles on juge son passage plus utile.
Mais attention, comme indiqué dans l'article, le robots.txt n'est pas la panacée pour empêcher l'indexation, ce n'est pas vraiment son rôle. Le sien est surtout de gérer le crawl des moteurs.
D'accord, merci beaucoup Sylvain, je comprends mieux le principe, surtout quand vous expliquez : "Le crawler aura alors plus de temps pour celles pour lesquelles on juge son passage plus utile."
Bonne continuation !
Bonjour et merci pour l'article.
Comment savoir si une page est nofollow?
Merci par avance
@ Hedayat
En lisant cet article, notamment la conclusion...
Bonjour Sylvain,
Afin d'éviter le problème de contenu dupliqué avec les pages de catégories, de mots-clés, archives ...etc..., j'ai justement pris le parti de n'indexer la plupart du temps que la page d'article en elle-même et de mettre les autres en noindex, sauf si la page de catégorie affiche sa description.
Sinon lorsque le thème me le permet, je créé une page spécifique par catégorie, sur laquelle j'affiche une belle description avant le résumé des derniers articles.
Que penses-tu de cette technique?
Je te remercie d'avance pour ta réponse éclairée.
Cordialement,
Bruno
@ Bruno
Vu que je fais la même chose, un bon exemple avec ce blog et ses catégories, je te répondrai plutôt que tu as raison 🙂
Bonjour
Depuis que Google a changé son algorithme(pingouin)il est recommandé d avoir aussi des liens en No follow car visiblement la bestiole n aime pas les sites sur-optimisés,cela limitera le risque d être déclassé ou sanctionné par sa majesté Google 1er .
Ce nouvel algo est nettement moins permissif que le précédent (Panda)
@ Réparation...
ça, j'attends qu'on me le prouve. En tout cas, je n'irai pas chercher sciemment des liens en nofollow, ils noient peut-être le poisson, mais n'apporte rien. Les liens nofollow intéressants sont ceux qui apportent réellement du trafic (comme les dofollow d'ailleurs...).
Et je ne vois pas trop le rapport entre les liens et un site sur-optimisé. Et au passage, le dernier passé à ce jour, c'est justement Panda, tout le monde attend la prochaine itération de Pingouin.
Bref, j'ai l'impression que tu ne sait pas trop de quoi tu parles...
je sais parfaitement de quoi je parle ....je fais aussi de la création de site web et du Seo ...j ai des clients très exigent avec une obligation de résultats les date de sortis viennent du journal du net ...
il y a beaucoup d article a ce sujet il faut 18 % de No follow pour espérer ne pas subir les foudre de la bestiole ...plus on avance dans le temps et plus Google est sévère avec les référenceur ...
Regarde comment mon site est positionné tu verras par toi même je sais de quoi je parle comment peux tu faire du seo sans connaitre les dates des nouveaux algo ...
@ Reparation...
Et bien continuez avec vos 18% de nofollow 🙂
Vous me sortirez bien aussi un pourcentage d’occurrence de mots-clés dans le texte tant que vous y êtes ?
Sinon, les dates Panda sont ici : https://www.axenet.fr/dates-google-panda/
Les dates Pingouin sont ici : https://www.axenet.fr/dates-google-pingouin/
La dernière itération de Panda (mai 2014) est plus récente que celle de Pingouin (oct 2013), voici pourquoi je reprenais votre premier commentaire.
Pour votre dernière question, c'est sans doute car je ne suis qu'un petit amateur qui fait du SEO depuis peu...
Et au passage, quel rapport entre tout cela et l'article ?
Je fais du seo depuis pas mal de temps ....
je vais abordé un autre coté pervers de l algorithme pingouin car le pingouin a fait beaucoup plus de dégât que le panda ......
Le netlinking :l échange de liens une excellente stratégie pour faire monter son site dans le classement Google ...sauf que ...avant le pingouin on pouvait échanger avec un site n ayant pas le même thème que son site ..depuis le pingouin cela est vraiment déconseillé Google condamne la triche ,les farms links le black hat Seo,les mots clé en pagailles ...
je préfère suivre à la lettre les recommandations de google et garder mon positionnement ...ce site à été développée en Décembre 2009 ...
Avoir un site web c est un bon début après il ne servira à rien si celui ci n est pas visible dans les moteurs de recherches ,avant de penser à créer des backlinks il faut tout d’abord l optimiser Seo ....
Un référencement c est 10 semaines ..un travail long et répétitif ..et il faut sans cesse créer de nouveau backlinks ...et faire le ménage dans les liens morts avec le Google Web-master tools ... le Seo un cauchemars mais non ....
@ Réparation
OK super.
Sauf que ce n'est pas du tout le sujet de cet article et que votre orthographe pique mes yeux. Donc dernier commentaire validé. Merci
Bonjour Sylvain,
Très drole les derniers échanges.... 🙂
Tu expliques que cumuler un bloquage via robots.txt et une balise no-index dans la foulée sur les pages bloquée par ton robots.txt est une erreur.
En parallèle, tu expliques que Google peut ne pas tenir compte du bloquage si les pages bloquées sont ciblées par des liens externes (ou autres) en citant le support Google.
Sur ce même support on peut lire :
"Vous pouvez empêcher cela en combinant le fichier robots.txt avec d'autres méthodes de blocage d'URL, telles que la protection par mot de passe des fichiers sur votre serveur ou l'insertion de balises Meta dans votre fichier HTML"
Ma question est donc : lequel des 2 bluffes ? Sylvain ou Google ? 🙂
Dans le cas de certains de mes clients, les logs montrent le passage de robots sur des pages inutiles mais malheureusement indexées (on parle de 10 000 pages...). Je ne veux plus que Google perde de temps sur celle-ci et en plus je veux les desindexer pour ne proposer qu'une indexation propre. Mon robots.txt comblera une partie, mais la desindexation passera par ma balise méta (l'outil de suppression GWT risque de coûter cher à mes clients dans ce genre de cas 🙂 ) Par conséquent, les 2 directives sont-elles si contradictoires que ça ?
@ Mathieu
Google bluffe 🙂
C'est un ogre qui indexe tout ce qu'il peut.
Une explication plus spécifique chez Olivier Duffez (WRI) : http://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt
Dans la pratique, (mais il me parait utile de retester), Olivier montre aussi l'utilisation d'une fonction non documentée par Google, le noindex dans le robots.txt Le souci, c'est que si Google change de fonctionnement un jour, ça ne marchera plus.
Petite question: une page en "noindex" transmet-elle du jus? Il me semble, dans un lointain souvenir de la masterclass Peyronnet, qu'une page représente un PageRank de 1-0,15 soit 0,85 (je parle bien du vrai PageRank, pas le TBPR /10). Je pourrais même poser d'ailleurs la question pour une page en Nofollow qui elle ne reçoit certes pas de jus d'autres pages par définition, mais peut-elle transmettre au moins le PageRank de 0,85 obtenu lors de la seule création de la page?
@ Antoine
A priori, une page en noindex ne devrait pas avoir de "pagerank". Donc ne pas en transmettre. Mais si elle reçoit des liens de l'extérieur on pourrait imaginer que l'algo lui attribue quand même une note.
Pour la page en nofollow, elle ne transmet pas de jus proprement dit puisqu'on lui dit expressément de ne pas en transmettre. Par contre, elle peut parfaitement avoir du pagerank puisqu'elle peut recevoir des tas de liens.
- j'ai l'impression que tu fais une confusion la dessus. Une page qui intègre la méta nofollow ne transmet pas de jus (comme si tous les liens quelle contient avaient un attribut nofollow), mais en reçoit.
Bonjour,
Je suis tenté de passer les catégories de mon blog Drupal en noindex pour éviter le duplicate content et surtout ne pas indexer de pages ne comportant que un ou deux billets. Pour prévenir tout Panda. Mais on n'a dit que je coupais les branches des feuilles que sont mes billets (en me disant que le jus vient par les catégories). Qui croire ?
Par ailleurs, j'ai deux pages, un formulaire, et une page ne comportant que quelques images, sans texte, donc très pauvre. Je suis également tenté de les passer en noindex. Le nofollow ne serait pas désiré comme le jus se départi selon les liens en follow et nofollow, d'après ce que j'ai lu.
Alors concrètement, que faire svp ?
@ Patrice
Il n'est pas normal que les pages de catégories soient en duplicate. Elles ne doivent comporter qu'un extrait des billets, pas les billets complets car dans ce cas il y a en effet du duplicate, le souci vient peut-être de là.
Sinon, ça parait effectivement tordu de désindexer les catégories car elles reçoivent normalement beaucoup de jus qu'elles transmettent aux billets.
Après, avoir des catégories qui n'ont quasiment pas de billets est un autre problème. Elles ne devraient même pas exister...
Ensuite, pour des pages internes très pauvres, tu peux en effet mettre du noindex, mais bon, si c'est 2 pages sur 500 ne craint rien du côté de Panda.
Bonjour,
Est-ce que vous avez déjà essayé de mettre la directive noindex directement dans le robots.txt pour forcer Google à désindexer des pages qui sont déjà bloquées dans le robots.txt mais quand même indexées avec la mention : La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site.
Je ne veux pas que Google ces pages (contenu dupliqué et quasiment infini) qui ne sont pas pertinentes, car on ne veut pas qu'il les explorent (parceque sinon il gaspille son crawl à crawler ces pages au lieu de page plus profondes).
J'ai bien noté que le meilleur moyen de désindexer des pages était de laisser crawlées et mettant no index dans le HTML.
Le désindex manuel via GSC ne marche pas, car quand Google recrawl les pages elles se ré indexent avec la même mention.
Merci d'avance
Bonjour,
J'aurai une question, ça fait plusieurs mois que j'ai mis un page en noindex (pour un contenu pauvre).
aujourd'hui la page à un bon contenu je risque d'avoir des problèmes si je retire le noindex pour indexer ma page ?
en vous remerciant d'avance
@ Dylan
Non, pas de souci, retire le noindex. Mais assure toi que la page a bien des liens entrants, même internes.
Hello,
J'ai un lot de pages qui sont en noindex (navigation à facettes, donc nombre très élevé de pages) et qui sont explorées depuis très longtemps par Google. Elles n'ont cependant jamais été indexées, normal puisqu'en noindex.
Google crawle donc ces pages tous les jours, ce qui fait un crawl énorme sur des pages qui n'ont aucun intérêt SEO et qui consomment beaucoup du budget de crawl pour rien...
Donc question:
Puis-je maintenant ajouter ces pages en Disallow dans le robots.txt afin de les exclure du crawl ? (tout en laissant le noindex)
Et est-ce que cela empêchera toujours l'indexation de ces pages, même si elles reçoivent un lien ?
Voilà c'est ma seule question sur cet excellent article 🙂
Merci.
Marc
@ Marc
La solution du disalow pourrait être efficace, mais je mettrais aussi un nofollow sur les liens qu'elles reçoivent.
@sylvain
D'accord, merci.
J'oubliais de préciser que les pages sont en "noindex,nofollow", pas uniquement en noindex.
Est-ce que cela est suffisant ?
Merci.
@ Marc
OK. Pour être certain d'être compris, ce sont surtout les liens qui pointent vers ces pages qui doivent être en nofollow.
@sylvain
Parlez-vous des liens internes ou externes ?
Quel impact si ces liens restent en dofollow, puisque le crawl de la page sera bloquée ?
Merci.
@ Marc
Je parle des liens internes qui pointent vers les pages concernées.
Après, s'ils y a des liens externes vers ces pages, il n'est pas certain que Google respecte grand chose à part le disalow.
Bonjour Sylvain et merci pour cet article "ancien" mais toujours d'actualité. J'ai d'ailleurs ajouté des petites étoiles 🙂
Petite question que je me poste, j'ai un site .com que je veux pas voir sur les pages de résultats des moteurs de recherche, c'est une page de présentation sans lien vers les dossiers internes qui contiennent d'anciens projets clients plus ou moins sensibles (nouvelle charte graphique, développement de mode de paiement, etc..) mais qui ne sont plus d'actualités et également d'anciens projets persos de créations de site internet.
Tout est en ligne pour que je puisse y acceder de n'importe mais ne voulant pas que tout cela soit répertoriés dans les moteurs de recherche, j'ai collé à la racine de mon hébergement un robots.txt contenant l'habituel => User-agent: * Disallow: / et également un fichier .htaccess contenant => Header set X-Robots-Tag "noindex, nofollow" et cerise sur le gateaux, une balise meta nofollow et noindex sur ma page d'accueil.
Du coup j'ai compris que ce que j'avais fait était mal, du coup que me conseilles tu concretement pour protéger mon dossier les sous dossiers (auxquels j'ai ajouté en plus un ".") ?
Merci pour ton aide
Cordialement
hello,
je te remercie pour l'article, super intéressant. Mon agence a refait mon site, mais il y a des choses que je ne comprends pas justement sur ce point.
Lorsque je regarde la liste des robot.txt, il demande de ne pas indexer les CSS et JS (sauf erreur de ma part. Pouvez vous jeter un oeil et me dire si ca vous parait normal ?
# Google Image Crawler Setup
User-agent: Googlebot-Image
Disallow:
# Crawlers Setup
User-agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
# Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
# Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /admin/
Disallow: */price=/*
Disallow: */dir= /*
Disallow: */order=/*
Disallow: */page/*
Disallow: */limit=/*
Disallow: */catalog/*
Disallow: */catalogsearch/*
Disallow: */customer/*
Disallow: */SID=/*
Disallow: */sort-by/*
Disallow: */checkout/*
Disallow: /index.php/
Disallow: /control/
Disallow: /contacts/
Disallow: */customer/*
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
# Paths (no clean URLs)
#Disallow: /*.js$
#Disallow: /*.css$
#Disallow: /*.php$
Disallow: /*?SID=