Google va cesser de prendre en charge la directive noindex dans robots.txt

29 juillet 2019 Matthieu Aucun commentaire

Des changements sont à venir dans la façon dont Google comprend certaines des directives non prises en charge dans votre fichier robots.txt.

La fin du noindex dans le robots.txt

À compter du 1er septembre 2019, Google cessera de prendre en charge les règles non prises en charge et non publiées dans le protocole exclusif des robots, a annoncé la société sur le blog Google Webmaster. Cela signifie que Google ne prendra plus en charge les fichiers robots.txt dont la directive noindex est listée dans le fichier.

« Dans l’intérêt du maintien d’un écosystème sain et de la préparation des futures versions open source potentielles, nous retirons tout le code qui gère les règles non prises en charge et non publiées (comme noindex) le 1er septembre 2019. Pour ceux d’entre vous qui se sont fiés à la directive d’indexation noindex dans le fichier robots.txt, qui contrôle le crawling, il existe un certain nombre d’options alternatives », a déclaré la société.

Quelles sont les alternatives pour désindexer une page ?

Dans son article, Google a listé les options qui s’offrent aux agences SEO pour empêcher l’indexation d’une page sur Google.

- Noindex dans les méta balises robots

Prise en charge à la fois dans les en-têtes de réponse HTTP et en HTML, la directive noindex est le moyen le plus efficace de supprimer les URLs de l’index lorsque l’exploration est autorisée.

- Codes d’état HTTP 404 et 410

Les deux codes d’état signifient que la page n’existe pas, ce qui supprimera ces URL de l’index de Google une fois qu’elles auront été parcourues et traitées.

- Protection par mot de passe

À moins que le balisage ne soit utilisé pour indiquer un abonnement ou un contenu payant, le fait de cacher une page derrière une connexion la supprimera généralement de l’index de Google.

- Interdire dans robots.txt

Les moteurs de recherche ne peuvent indexer que les pages qu’ils connaissent, donc bloquer la page pour éviter qu’elle ne soit parcourue signifie souvent que son contenu ne sera pas indexé. Bien que le moteur de recherche puisse également indexer une URL à partir de liens d’autres pages, sans voir le contenu lui-même, nous visons à rendre ces pages moins visibles à l’avenir.

- Outil Supprimer l’URL de la console de recherche

L’outil est une méthode rapide et facile pour supprimer temporairement une URL des résultats de recherche Google.

Devenir un standard

Hier, Google a annoncé que la société travaille à faire du protocole d’exclusion des robots un standard et c’est probablement le premier changement à venir. En fait, Google a publié son analyseur robots.txt comme un projet open source avec cette annonce hier.

Pourquoi Google change maintenant. Google cherche à changer cela depuis des années et en normalisant le protocole, il peut maintenant aller de l’avant. Google a dit qu’il a « analysé l’utilisation des règles de robots.txt. » Google se concentre sur l’examen des implémentations non prises en charge de l’ébauche Internet, tels que crawl-delay, nofollow, et noindex. « Comme ces règles n’ont jamais été documentées par Google, naturellement, leur utilisation par rapport à Googlebot est très faible, » dit Google. « Ces erreurs nuisent à la présence des sites Web dans les résultats de recherche de Google d’une manière que nous ne pensons pas que les webmasters voulaient. »

Pourquoi nous nous en soucions. Le plus important est de vous assurer que vous n’utilisez pas la directive noindex dans le fichier robots.txt. Si c’est le cas, vous voudrez apporter les changements suggérés ci-dessus avant le 1er septembre. Aussi, regardez si vous utilisez les commandes nofollow ou crawl-delay et si c’est le cas, regardez si vous utilisez la méthode vraiment supportée pour ces directives à l’avenir.