GoogleBot et votre budget de Crawl : une question de liens et de robots !
Et non, ce ne sont pas des salariés de Google qui viennent indexer vos pages de contenus, la tâche sera trop longue et fastidieuse, ce sont des robots d'exploration qui s’en chargent… Dès lors, si les robots de Google (Google Bot) n’arrivent pas à parcourir et indexer les pages de votre site, point de salut, votre site sera invisible dans ses résultats de recherche et votre trafic naturel en sera directement affecté.
Alors comment s’assurer que son site est bien indexable et comment l’optimiser pour faciliter le passage de GoogleBot ?

Le terme générique "robot d'exploration", ou plus simplement "robot", désigne tout programme qui permet de découvrir et d'analyser automatiquement des sites Web en suivant des liens d'une page à une autre. Lorsque vous soumettez votre site à Google, vous verrez dans vos logs serveurs qu’il est exploré par au moins deux types de robots d'exploration : Googlebot pour ordinateur et Googlebot pour smartphone.
Chaque robot est capable d’explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible (txt, csv, xml).
Toutes les ressources référencées dans votre code HTML, comme les images, les vidéos, les fichiers CSS et le code JavaScript, sont récupérées séparément.
Vous pouvez vérifier le passage de ses bots dans vos logs serveurs en rapprochant la liste IP des robots d’exploitation de Google.

Avez-vous des pages déjà indexées par googleBot ?
Tapez cette syntaxe directement dans la barre de recherche de Google :
- site :votredomaine.com
si des pages apparaissent, vous avez fait une partie du chemin.
Il existe plusieurs méthodes pour indiquer à Google les pages que vous souhaitez qu’il explore et celles que vous ne souhaitez pas, car évidement l'enjeu est de le laisser explorer les éléments les plus pertinents et non l'intégralité du contenu de son site...
Robots.txt
La technique la plus radicale, mais pas la plus simple en mettre en œuvre, car elle nécessite de pouvoir accéder à un fichier sur le serveur : le robots.txt ! A manipuler avec précaution. Votre fichier robots.txt est l'endroit où vous pouvez spécifier les pages ou les ressources que vous ne voulez pas que Googlebot passe du temps à explorer.
Exemple de contenu d'un fichier robots.txt :
User-agent: *
Disallow:
L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'applique pour tous les robots (et pas uniquement ceux de Google, Bing, Yandex, etc…).
L'instruction Disallow: signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site, sans restriction.
Vous aurez compris que vous pouvez donc restreindre des pages ou des répertoires avec cette seconde instruction
Lorsque vous souhaitez bloquer seulement certains répertoires (autant de ligne que de répertoires souhaités) :
User-agent: *
Disallow: /repertoire/
Pour effectuer une demande de crawl auprès de Google, deux solutions s’offrent à vous en fonction de votre besoin et de vos compétences techniques.
Soumettre son site à Google
Qu’est ce que le budget de Crawl ?
Le géant de Mountain View fixe une limite de temps qu'il passe à explorer un site pour indexer ses pages : c'est ce qu'on appelle le budget d'exploration ou budget de crawl. Il est déterminé par deux éléments :
- Limite de capacité d'exploration.
Il s'agit du nombre maximal de connexions que Google peut utiliser pour explorer votre site Web en même temps. Il est là pour empêcher Googlebot de submerger le serveur de votre site Web avec trop de requêtes et le faire tomber. - Demande d'exploration.
Google calcule le temps dont il a besoin pour explorer votre site Web en fonction de plusieurs facteurs tels que sa "taille, la fréquence de mise à jour, la qualité de la page et la pertinence, par rapport aux autres sites". Et c’est là que cela se corse…
L’exploration d’un site ne se fait pas en une fois. Le robot passe à plusieurs reprises sur les différentes pages de votre site.
La gestion du budget d'exploration consiste à s'assurer que vous empêchez Google d'explorer des pages non pertinentes (mauvaise qualité). Ces pages peuvent offrir peu ou pas de valeur à l'utilisateur, être dupliquées, avoir un contenu insuffisant ou voir même ne plus exister (erreur 404). Trop de pages sans importance et de mauvaise qualité explorées gaspillent un précieux budget de crawl que Google vous offre, il vous en tiendra rigueur et diminuera le temps qu’il vous allouait jusqu’à lors.

Pièges à crawl ou "Crawlers traps"
- site:votredomaine.com inurl:http://
- site:votredomaine.com -inurl:https://
- site:votredomaine.com inurl:/page/ site:votredomaine.come inurl:p=
- site:votredomaine.com inurl:/tag/
- site:votredomaine.com inurl:/author/
- site:votredomaine.com inurl:www.
- site:votredomaine.com -inurl:www.
Conseils pour gagner du budget de crawl simplement...
Tous les tests réalisés par Google sont effectués avec des émulateurs de terminaux mobiles, dont la connexion est bridée en terme de débit pour simuler au plus près des conditions d'accès d'un mobinaute. La vitesse de réponse du serveur devient donc prédominante et si, par malheur le contenu de votre site met du temps s'afficher, cela vous pénalisera.
Pensez à rafraichir vos contenus, car les modifications sont très appréciées.
Assurez vous que vos pages sont accessibles simplement, en un minimum de clics. Plus le nombre de clics nécessaires pour atteindre une page est important, moins celle-ci aura de chance d’être considérée pertinente par les robots d’indexation.
Enfin, vérifiez que toutes vos pages sont liées les unes aux autres (maillage interne). Google déteste les pages orphelines !