Googlebot : comment optimiser son budget de Crawl ?

GoogleBot et votre budget de Crawl : une question de liens et de robots !

Et non, ce ne sont pas des salariés de Google qui viennent indexer vos pages de contenus, la tâche sera trop longue et fastidieuse, ce sont des robots d'exploration qui s’en chargent… Dès lors, si les robots de Google (Google Bot) n’arrivent pas à parcourir et indexer les pages de votre site, point de salut, votre site sera invisible dans ses résultats de recherche et votre trafic naturel en sera directement affecté.
Alors comment s’assurer que son site est bien indexable et comment l’optimiser pour faciliter le passage de GoogleBot ?

Le terme générique "robot d'exploration", ou plus simplement "robot", désigne tout programme qui permet de découvrir et d'analyser automatiquement des sites Web en suivant des liens d'une page à une autre. Lorsque vous soumettez votre site à Google, vous verrez dans vos logs serveurs qu’il est exploré par au moins deux types de robots d'exploration : Googlebot pour ordinateur et Googlebot pour smartphone.

Chaque robot est capable d’explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible (txt, csv, xml).
Toutes les ressources référencées dans votre code HTML, comme les images, les vidéos, les fichiers CSS et le code JavaScript, sont récupérées séparément.
Vous pouvez vérifier le passage de ses bots dans vos logs serveurs en rapprochant la liste IP des robots d’exploitation de Google.

Besoin de confier cette mission à un professionnel ?

Avez-vous des pages déjà indexées par googleBot ?

Tapez cette syntaxe directement dans la barre de recherche de Google :

site :votredomaine.com

si des pages apparaissent, vous avez fait une partie du chemin.
Il existe plusieurs méthodes pour indiquer à Google les pages que vous souhaitez qu’il explore et celles que vous ne souhaitez pas, car évidement l'enjeu est de le laisser explorer les éléments les plus pertinents et non l'intégralité du contenu de son site...

Robots.txt

La technique la plus radicale, mais pas la plus simple en mettre en œuvre, car elle nécessite de pouvoir accéder à un fichier sur le serveur : le robots.txt ! A manipuler avec précaution. Votre fichier robots.txt est l'endroit où vous pouvez spécifier les pages ou les ressources que vous ne voulez pas que Googlebot passe du temps à explorer.

Exemple de contenu d'un fichier robots.txt :

User-agent: *
Disallow:

L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'applique pour tous les robots (et pas uniquement ceux de Google, Bing, Yandex, etc…).

L'instruction Disallow: signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site, sans restriction.

Vous aurez compris que vous pouvez donc restreindre des pages ou des répertoires avec cette seconde instruction
Lorsque vous souhaitez bloquer seulement certains répertoires (autant de ligne que de répertoires souhaités) :

User-agent: *
Disallow: /repertoire/

Pour effectuer une demande de crawl auprès de Google, deux solutions s’offrent à vous en fonction de votre besoin et de vos compétences techniques.

Soumettre son site à Google

Soumission directe

• soumettre une URL directement à l’index, idéal dans le cas d’une petite quantité de liens à explorer. Vous pouvez leffectuer directement via votre Searrch Console (Inspection d'url)

Soumission par fichier d'échange

• soumettre un sitemap complet, ce qui est la meilleure alternative pour faire une demande d’exploration d’un site web ou d’un grand nombre d’URL.

Qu’est ce que le budget de Crawl ?

Le géant de Mountain View fixe une limite de temps qu'il passe à explorer un site pour indexer ses pages : c'est ce qu'on appelle le budget d'exploration ou budget de crawl. Il est déterminé par deux éléments :

Limite de capacité d'exploration.
Il s'agit du nombre maximal de connexions que Google peut utiliser pour explorer votre site Web en même temps. Il est là pour empêcher Googlebot de submerger le serveur de votre site Web avec trop de requêtes et le faire tomber.
Demande d'exploration.
Google calcule le temps dont il a besoin pour explorer votre site Web en fonction de plusieurs facteurs tels que sa "taille, la fréquence de mise à jour, la qualité de la page et la pertinence, par rapport aux autres sites". Et c’est là que cela se corse…

L’exploration d’un site ne se fait pas en une fois. Le robot passe à plusieurs reprises sur les différentes pages de votre site.

La gestion du budget d'exploration consiste à s'assurer que vous empêchez Google d'explorer des pages non pertinentes (mauvaise qualité). Ces pages peuvent offrir peu ou pas de valeur à l'utilisateur, être dupliquées, avoir un contenu insuffisant ou voir même ne plus exister (erreur 404). Trop de pages sans importance et de mauvaise qualité explorées gaspillent un précieux budget de crawl que Google vous offre, il vous en tiendra rigueur et diminuera le temps qu’il vous allouait jusqu’à lors.

Les sites Web avec des certificats SSL qui ont encore des pages HTTP indexées provoquent un contenu dupliqué inutile. Utilisez les sites de recherche suivants sur Google :

site:votredomaine.com inurl:http://
site:votredomaine.com -inurl:https://

Les pages paginées (où votre contenu est divisé sur plusieurs pages) créent un contenu en double inutile. Pour les trouver, utilisez les recherches de sites suivantes sur Google :

site:votredomaine.com inurl:/page/ site:votredomaine.come inurl:p=

Les pages de balises sont comme des pages de catégories où vous pouvez regrouper des pages similaires. Elles sont générées par votre CMS (Wordpress, Drupal etc...). Ils sont couramment utilisés pour regrouper des articles de blog similaires, par exemple votredomaine.com/tag/sports/. Utilisez la recherche de site suivante pour trouver /tag/ les pages indexées sur votre site :

site:votredomaine.com inurl:/tag/

Les pages d'auteur sont similaires aux pages de balises, sauf qu'il s'agit de groupes de pages écrites par le même auteur, c'est-à-dire example.com/author/votre-nom/ Utilisez la recherche de site suivante sur Google pour identifier les pages /auteur/ inutiles :

site:votredomaine.com inurl:/author/

Il arrive souvent que deux versions de votre site cohabitent. Des pages www explorées et indexées lorsque vous servez des pages non www (et vice versa). Pour les trouver, utilisez :

site:votredomaine.com inurl:www.
site:votredomaine.com -inurl:www.

C'est un problème si toutes vos URL se terminent par une barre oblique "/" mais que vous avez des URL sans barre oblique toujours indexées. Allez dans les réglages de slugs de votre CMS pour enlever cette contrainte d'écriture d'URL.

C'est-à-dire les pages de paiement, les pages de remerciement, les mentions légales, les crédits photographiques, qui n'ont pas forcement un intérêt majeur pour mettre en avant votre expertise, les services que vous proposez ou vos produits.

Conseils pour gagner du budget de crawl simplement...

Tous les tests réalisés par Google sont effectués avec des émulateurs de terminaux mobiles, dont la connexion est bridée en terme de débit pour simuler au plus près des conditions d'accès d'un mobinaute. La vitesse de réponse du serveur devient donc prédominante et si, par malheur le contenu de votre site met du temps s'afficher, cela vous pénalisera.

Pensez à rafraichir vos contenus, car les modifications sont très appréciées.

Assurez vous que vos pages sont accessibles simplement, en un minimum de clics. Plus le nombre de clics nécessaires pour atteindre une page est important, moins celle-ci aura de chance d’être considérée pertinente par les robots d’indexation.
Enfin, vérifiez que toutes vos pages sont liées les unes aux autres (maillage interne). Google déteste les pages orphelines !

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

GoogleBot et votre budget de Crawl : une question de liens et de robots !

Avez-vous des pages déjà indexées par googleBot ?

Robots.txt

Exemple de contenu d'un fichier robots.txt :

Soumettre son site à Google

Qu’est ce que le budget de Crawl ?

Pièges à crawl ou "Crawlers traps"

Conseils pour gagner du budget de crawl simplement...

Articles similaires

Comment ne pas gaspiller son budget Google Ads ?

L’importance de se positionner dans les moteurs d’IA

Vous succomberez à la Search Generative Experience !