Comprendre le rapport de couverture de la Google Search Console

Introduction au rapport de couverture et à l’interprétation de ses données

Le rapport de couverture de la Google Search Console fournit de nombreuses informations sur les pages de votre site qui sont indexées. Il liste également les problèmes rencontrés par le Googlebot lors du crawl et de l’indexation.
La page principale dans le rapport de couverture montre les URLs de votre site groupées par statuts :

Ce rapport de couverture fournit bien plus d’informations que celui de l’ancienne Search Console. Google a réellement amélioré les données qu’il partage mais il y a encore certains points qui ont besoin d’amélioration.

Comme vous pouvez le voir ci-dessous, Google montre un graphique avec le nombre d’URLs dans chaque catégorie. S’il y a une augmentation soudaine des erreurs, vous pouvez analyser les données et même les mettre en relation avec les impressions. Cela permettrait de déterminer si une augmentation des URLs en erreur ou des avertissements fait dangereusement chuter vos impressions.

rapport couverture

Après le lancement d’un site ou la création de nouvelles sections, vous devriez voir apparaître une augmentation du nombre de pages indexées valides. Cela peut prendre quelques jours avant que Google indexe de nouvelles pages mais vous pouvez utiliser l’URL inspection tool pour demander une indexation et réduire le temps que Google met à trouver votre nouvelle page.

rapport couverture

Cependant, si voyez le nombre d’URLs valides décliner ou des pics soudains apparaître, il est important d’identifier les URLs dans la section “Erreurs” et de réparer les erreurs listées dans le rapport.
Google fournit un bon résumé d’actions à mettre en place lorsqu’il y a des augmentations d’erreurs ou d’avertissements.

Google met également à votre disposition des informations à propos des erreurs et du nombre d’URLs concernées :

rapport couverture

Rappelez-vous que la Google Search Console ne montre pas des informations 100 % fiables. En réalité, il y a eu plusieurs rapports à propos de bugs ou d’anomalies de données. De plus, la Google Search Console, met un certain temps avant de se mettre à jour. Certaines données datent de 16 à 20 jours.
Parfois, la Google Search Console montre des listes de plus de 1000 URLs en erreur ou en avertissement comme vous pouvez le voir sur l’image ci-dessous. Mais vous ne pouvez voir ou télécharger qu’un échantillon de 1000 URLs, pas plus.
Cependant, il s’agit tout de même d’un très bon outil pour identifier les problèmes d’indexation sur votre site.

Lorsque vous cliquez sur une erreur spécifique, vous pouvez voir la page détails qui montre des exemples d’URLs concernées :

rapport couverture

L’image ci-dessus montre la page détails pour toutes les URLs répondant en 404. Chaque rapport dispose d’un lien “En savoir plus” qui renvoie à la documentation de Google fournissant des détails à propos d’une erreur spécifique. Google fournit aussi des graphiques qui montre le nombre de pages affectées au fil du temps.

Vous pouvez cliquer sur chaque URL afin de l’inspecter, ce qui reste similaire à la fonctionnalité “fetch as Googlebot” de l’ancienne Google Search Console. Vous pouvez aussi déterminer si la page est bloquée par votre robots.txt.

Après avoir réparé les URLs, vous pouvez demander à Google de les valider afin que l’erreur disparaisse de votre rapport. Vous devriez réparer les erreurs qui sont en état “échec” ou “non débutée” en priorité.

Il est important de mentionner que vous ne devez pas vous attendre à voir toutes les URLs de votre site indexées. Google a déclaré que l’objectif des webmasters devrait être d’avoir toutes les URLs canoniques indexées. Les pages dupliquées ou alternatives seront catégorisées comme exclues comme leur contenu est similaire à celui de la page canonique.

Il est normal que les sites dispose de pages dans la catégorie “exclues”. La plupart des sites auront plusieurs URLs avec des balises meta noindex ou bloquées via le robots.txt. Lorsque Google identifie une page dupliquée ou alternative, assurez-vous que ces pages ont une balise canonique pointant vers la bonne URL. Essayez également de trouver l’équivalent canonique de la catégorie valide.

Google a inclut un filtre déroulant en haut à gauche du rapport afin que vous puissiez filtrer le rapport pour toutes les pages connues, soumises ou les URLs dans un sitemap spécifique. Le rapport par défaut inclut toutes les pages connues et URLs découvertes par Google. Les pages soumises comprennent toutes les URLs que vous avez rapportées à travers un sitemap. Si vous avez soumis plusieurs sitemaps, vous pouvez filtrer par URLs dans chaque sitemap.

[oc-redirect num=1]

Erreurs, avertissements et URLs valides et exclues

Erreurs

Avertissement

Si Google a raison et que l’URL a été bloquée par erreur, vous devriez mettre à jour votre fichier robots.txt afin d’autoriser Google à crawler la page.

URLs Valides

URLs Exclues

[oc-redirect num=2]

Comment utiliser ces données pour améliorer votre site ?

Travaillant au sein d’une agence, j’ai accès à beaucoup de sites différents et à leurs rapports de couverture. J’ai passé du temps à analyser les erreurs que Google rapporte dans les différents catégories.
Il est utile de trouver ces erreurs avec les contenus canoniques et dupliqués. Cependant, vous pouvez parfois tomber sur des anomalies comme celle reportée par @jroakes:

Looks like Google Search Console > URL Inspection > Live Test incorrectly reports all JS and CSS files as Crawl allowed: No: blocked by robots.txt. Test about 20 files across 3 domains. pic.twitter.com/fM3WAcvK8q

— JR%20Oakes ???? (@jroakes) July 16, 2019

AJ Koh a également écrit un très bon article peu de temps après que la nouvelle Google Search Console soit sortie. Il y explique que la réelle valeur dans les données est de les utiliser pour dresser un état des lieux de chaque type de contenu sur votre site :

Comme vous pouvez le voir sur l’image ci-dessus, les URLs des différentes catégories dans le rapport de couverture ont été classées par template de page comme le blog, les pages service… Utiliser différents sitemaps pour les différents types d’URL pourrait vous aider car Google vous permet de filtrer les informations de couverture par sitemap. Puis, il a inclut 3 colonnes avec les informations suivantes : % de pages indexées et soumises, Taux d’URLs valides et % de pages découvertes.

Ce tableau fournit un très bon aperçu de la santé de votre site. Si vous souhaitez creuser dans ces sections, je vous recommande de parcourir les rapports et de vérifier à nouveau les erreurs que Google rapporte.
Vous pouvez télécharger toutes les URLs présentes dans différentes catégories et utiliser Oncrawl pour vérifier leur statut HTTPS, balises canoniques… et créer une feuille de calcul comme celle-ci :

Organiser vos données comme cela peut vous aider à suivre les différents problèmes et à mettre en place des solutions pour les URLs qui ont besoin de réparation ou d’amélioration. Vous pouvez aussi vérifier les URLs qui sont correctes et qui n’ont pas besoin d’améliorations.

Vous pouvez même ajouter plus d’informations dans cette feuille de calcul provenant d’autres sources comme ahrefs, Majestic et Google Analytics avec Oncrawl Integrations. Cela vous permettrait d’extraire les données de lien, de trafic et de conversion pour chacune des URLs dans la Google Search Console.
Toutes ces données peuvent vous aider à prendre de meilleures décisions pour chaque page. Par exemple, si vous avez une liste de pages avec des 404s, vous pouvez les croiser avec vos données de backlinks pour vérifier que vous ne perdez pas d’équité de lien de domaines renvoyant vers des pages cassées de votre site. Ou vous pouvez vérifier les pages indexées et le volume de trafic organique reçu. Vous pourriez identifier les pages indexées qui n’obtiennent pas de trafic organique et travailler sur leur optimisation (améliorer le contenu et l’utilisabilité) pour conduire plus de trafic vers cette page.

Avec ces données supplémentaires, vous pouvez créer un sommaire sur une autre feuille de calcul. Vous pouvez utiliser la formule =COUNTIF (range, criteria) pour compter les URLs sur chaque type de page (ce tableau peut compléter le tableau qu’AJ Khon a suggéré ci-dessus). Vous pourriez aussi utiliser une autre formule pour ajouter des backlinks, visites ou conversions que vous avez extrait de chaque URL et les montrer dans le tableau sommaire avec la formule suivante =SUMIF (range, criteria, [sum_rang]). Vous obtiendrez quelque chose comme ceci :

J’aime vraiment travailler avec des tableaux récapitulatifs qui apportent une vue globale des données et peuvent aider à identifier les sections sur lesquelles je dois me concentrer.

Conclusion

Lorsque vous réparez des problèmes et analysez des données dans le rapport de couverture, vous devez penser à : Est-ce que mon site est optimisé pour le crawl ? Est-ce que mes pages indexées et valides augmentent ou diminuent ? Est-ce que les pages avec des erreurs augmentent ou diminuent ? Est-ce que j’autorise Google à passer du temps sur les URLs qui apporteront plus de valeur à mes utilisateurs ou est-ce qu’il trouve trop de pages inutiles ?
Avec ces réponses, vous pourriez déjà commencer à mettre en place des améliorations sur votre site. Le Googlebot pourrait dépenser plus de budget de crawl sur les pages qui peuvent fournir plus de valeur aux utilisateurs au lieu de crawler les pages inutiles. Vous pouvez utiliser le robots.txt pour améliorer l’efficacité du crawl, retirer les URLs inutiles si possible ou utiliser les balises canoniques ou noindex pour éviter le contenu dupliqué.

Google ajoute régulièrement des fonctionnalités et des données mises à jour aux différents rapports de la Google Search Console. Espérons que nous continuerons à voir plus de données dans chacune des catégories du rapport de couverture ainsi que dans les autres rapports de la Google Search Console.