02 61 53 67 43 | Contactez l'agence
  • Accueil
  • A propos
  • Solutions
    • Accompagnement SEO
    • SEO – Référencement naturel
    • SEA – Référencement payant
  • Etudes de cas
  • Formation
  • Blog
Contact
  • Accueil
  • A propos
  • Solutions
    • Accompagnement SEO
    • SEO – Référencement naturel
    • SEA – Référencement payant
  • Etudes de cas
  • Formation
  • Blog
Contact
  • Accueil
  • A propos
  • Solutions
    • Accompagnement SEO
    • SEO – Référencement naturel
    • SEA – Référencement payant
  • Etudes de cas
  • Formation
  • Blog
02 61 53 67 43 | Contact

Googlebot : comment optimiser son budget de Crawl ?

Optimiser son budget de crawl - Googlebot

GoogleBot et votre budget de Crawl : une question de liens et de robots !

Et non, ce ne sont pas des salariés de Google qui viennent indexer vos pages de contenus, la tâche sera trop longue et fastidieuse, ce sont des robots d'exploration qui s’en chargent… Dès lors, si les robots de Google (Google Bot) n’arrivent pas à parcourir et indexer les pages de votre site, point de salut, votre site sera invisible dans ses résultats de recherche et votre trafic naturel en sera directement affecté.
Alors comment s’assurer que son site est bien indexable et comment l’optimiser pour faciliter le passage de GoogleBot ?

Optimiser son budget de Crawl

Le terme générique "robot d'exploration", ou plus simplement "robot", désigne tout programme qui permet de découvrir et d'analyser automatiquement des sites Web en suivant des liens d'une page à une autre. Lorsque vous soumettez votre site à Google, vous verrez dans vos logs serveurs qu’il est exploré par au moins deux types de robots d'exploration : Googlebot pour ordinateur et Googlebot pour smartphone.

Chaque robot est capable d’explorer les 15 premiers Mo d'un fichier HTML ou d'un fichier texte compatible (txt, csv, xml).
Toutes les ressources référencées dans votre code HTML, comme les images, les vidéos, les fichiers CSS et le code JavaScript, sont récupérées séparément.
Vous pouvez vérifier le passage de ses bots dans vos logs serveurs en rapprochant la liste IP des robots d’exploitation de Google.

GoogleBot
Besoin de confier cette mission à un professionnel ?

Avez-vous des pages déjà indexées  par googleBot ?

Tapez cette syntaxe directement dans la barre de recherche de Google :

  • site :votredomaine.com

si des pages apparaissent, vous avez fait une partie du chemin. 
Il existe plusieurs méthodes pour indiquer à Google les pages que vous souhaitez qu’il explore et celles que vous ne souhaitez pas, car évidement l'enjeu est de le laisser explorer les éléments les plus pertinents et non l'intégralité du contenu de son site...

Robots.txt 

La technique la plus radicale, mais pas la plus simple en mettre en œuvre, car elle nécessite de pouvoir accéder à un fichier sur le serveur : le robots.txt ! A manipuler avec précaution.  Votre fichier robots.txt est l'endroit où vous pouvez spécifier les pages ou les ressources que vous ne voulez pas que Googlebot passe du temps à explorer.

Exemple de contenu d'un fichier robots.txt :

User-agent: *
Disallow:

L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'applique pour tous les robots (et pas uniquement ceux de Google, Bing, Yandex, etc…).

L'instruction Disallow:  signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site, sans restriction.

Vous aurez compris que vous pouvez donc restreindre des pages ou des répertoires avec cette seconde instruction 
Lorsque vous souhaitez bloquer seulement certains répertoires (autant de ligne que de répertoires souhaités) :

User-agent: *
Disallow: /repertoire/

Pour effectuer une demande de crawl auprès de Google, deux solutions s’offrent à vous en fonction de votre besoin et de vos compétences techniques.

Soumettre son site à Google

Soumission directe
• soumettre une URL directement à l’index, idéal dans le cas d’une petite quantité de liens à explorer. Vous pouvez leffectuer directement via votre Searrch Console (Inspection d'url)
Soumission par fichier d'échange
• soumettre un sitemap complet, ce qui est la meilleure alternative pour faire une demande d’exploration d’un site web ou d’un grand nombre d’URL.

Qu’est ce que le budget de Crawl ?

Le géant de Mountain View fixe une limite de temps qu'il passe à explorer un site pour indexer ses pages : c'est ce qu'on appelle le budget d'exploration ou budget de crawl. Il est déterminé par deux éléments :

  1. Limite de capacité d'exploration. 
    Il s'agit du nombre maximal de connexions que Google peut utiliser pour explorer votre site Web en même temps. Il est là pour empêcher Googlebot de submerger le serveur de votre site Web avec trop de requêtes et le faire tomber.
  2. Demande d'exploration.
    Google calcule le temps dont il a besoin pour explorer votre site Web en fonction de plusieurs facteurs tels que sa "taille, la fréquence de mise à jour, la qualité de la page et la pertinence, par rapport aux autres sites". Et c’est là que cela se corse…

L’exploration d’un site ne se fait pas en une fois. Le robot passe à plusieurs reprises sur les différentes pages de votre site.

La gestion du budget d'exploration consiste à s'assurer que vous empêchez Google d'explorer des pages non pertinentes (mauvaise qualité). Ces pages peuvent offrir peu ou pas de valeur à l'utilisateur, être dupliquées, avoir un contenu insuffisant ou voir même ne plus exister (erreur 404). Trop de pages sans importance et de mauvaise qualité explorées gaspillent un précieux budget de crawl que Google vous offre, il vous en tiendra rigueur et diminuera le temps qu’il vous allouait jusqu’à lors.

Pièges à crawl ou "Crawlers traps"

Pièges à crawl ou "Crawlers traps"

  • Pages HTTP
  • Pagination
  • Pages Tags
  • Pages auteurs
  • WWW ou pas
  • Barre oblique finale
  • Pages diverses
Les sites Web avec des certificats SSL qui ont encore des pages HTTP indexées provoquent un contenu dupliqué inutile. Utilisez les sites de recherche suivants sur Google :
  • site:votredomaine.com inurl:http://
  • site:votredomaine.com -inurl:https://
Les pages paginées (où votre contenu est divisé sur plusieurs pages) créent un contenu en double inutile. Pour les trouver, utilisez les recherches de sites suivantes sur Google :
  • site:votredomaine.com inurl:/page/ site:votredomaine.come inurl:p=
Les pages de balises sont comme des pages de catégories où vous pouvez regrouper des pages similaires. Elles sont générées par votre CMS (Wordpress, Drupal etc...). Ils sont couramment utilisés pour regrouper des articles de blog similaires, par exemple votredomaine.com/tag/sports/. Utilisez la recherche de site suivante pour trouver /tag/ les pages indexées sur votre site :
  • site:votredomaine.com inurl:/tag/
Les pages d'auteur sont similaires aux pages de balises, sauf qu'il s'agit de groupes de pages écrites par le même auteur, c'est-à-dire example.com/author/votre-nom/ Utilisez la recherche de site suivante sur Google pour identifier les pages /auteur/ inutiles :
  • site:votredomaine.com inurl:/author/
Il arrive souvent que deux versions de votre site cohabitent. Des pages www explorées et indexées lorsque vous servez des pages non www (et vice versa). Pour les trouver, utilisez :
  • site:votredomaine.com inurl:www.
  • site:votredomaine.com -inurl:www.
C'est un problème si toutes vos URL se terminent par une barre oblique "/" mais que vous avez des URL sans barre oblique toujours indexées. Allez dans les réglages de slugs de votre CMS pour enlever cette contrainte d'écriture d'URL.
C'est-à-dire les pages de paiement, les pages de remerciement, les mentions légales, les crédits photographiques, qui n'ont pas forcement un intérêt majeur pour mettre en avant votre expertise, les services que vous proposez ou vos produits.

Conseils pour gagner du budget de crawl simplement...

Tous les tests réalisés par Google sont effectués avec des émulateurs de terminaux mobiles, dont la connexion est bridée en terme de débit pour simuler au plus près des conditions d'accès d'un mobinaute. La vitesse de réponse du serveur devient donc prédominante et si, par malheur le contenu de votre site met du temps s'afficher, cela vous pénalisera.

Pensez à rafraichir vos contenus, car les modifications sont très appréciées. 

Assurez vous que vos pages sont accessibles simplement, en un minimum de clics.  Plus le nombre de clics nécessaires pour atteindre une page est important, moins celle-ci aura de chance d’être considérée pertinente par les robots d’indexation.
Enfin, vérifiez que toutes vos pages sont liées les unes aux autres (maillage interne). Google déteste les pages orphelines ! 

 

Partager

Articles similaires

8 mars 2023

Google, une histoire d’algorithmes


en savoir plus
Cannibalisation de contenu
9 novembre 2022

Cannibalisation en SEO


en savoir plus
Google Content Update et E-Commerce
7 octobre 2022

E-commerce et Google Helpful Content Update


en savoir plus
B-Strong - Agence référencement web à Caen - SEO SEA

B-Strong est une agence spécialisée en marketing digital, et en particulier dans le référencement web naturel (SEO) et payant (SEA).
Contact +33 2 61 53 67 43.

  • Accueil
  • A propos
  • Solutions
  • Formation
  • Blog
  • Politique de confidentialité
  • Mentions légales
  • Utilisation des cookies
  • Contact
B-Strong 2022, tous droits réservés
Nous utilisons des cookies sur notre site Web pour vous offrir l'expérience la plus pertinente en mémorisant vos préférences et en répétant vos visites. En cliquant sur « Tout accepter », vous consentez à l'utilisation de TOUS les cookies. Cependant, vous pouvez visiter les « Paramètres des cookies » pour fournir un consentement contrôlé.
Paramêtre des cookiesAccepter tout
Consentement

Politique de confidentialité

Ce site Web utilise des cookies pour améliorer votre expérience lorsque vous naviguez sur le site Web. Parmi ceux-ci, les cookies classés comme nécessaires sont stockés sur votre navigateur car ils sont essentiels au fonctionnement des fonctionnalités de base du site Web. Nous utilisons également des cookies tiers qui nous aident à analyser et à comprendre comment vous utilisez ce site Web. Ces cookies ne seront stockés dans votre navigateur qu'avec votre consentement. Vous avez également la possibilité de désactiver ces cookies. Mais la désactivation de certains de ces cookies peut affecter votre expérience de navigation.
Nécessaires techniquement
Toujours activé
Les cookies nécessaires sont absolument essentiels au bon fonctionnement du site Web. Ces cookies assurent les fonctionnalités de base et les éléments de sécurité du site Web, de manière anonyme.
CookieDuréeDescription
cookielawinfo-checkbox-analytics11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional11 monthsThe cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy11 monthsThe cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Fonctionnels
Les cookies fonctionnels aident à exécuter certaines fonctionnalités telles que le partage du contenu du site Web sur les plateformes de médias sociaux, la collecte de commentaires et d'autres fonctionnalités tierces.
Performance
Les cookies de performance sont utilisés pour comprendre et analyser les indices de performance clés du site Web, ce qui contribue à offrir une meilleure expérience utilisateur aux visiteurs.
Statistiques
Les cookies statistiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site Web. Ces cookies aident à fournir des informations sur les métriques du nombre de visiteurs, du taux de rebond, de la source du trafic, etc.
Publicitaires
Les cookies publicitaires sont utilisés pour fournir aux visiteurs des publicités et des campagnes marketing pertinentes. Ces cookies suivent les visiteurs sur les sites Web et collectent des informations pour fournir des publicités personnalisées.
Cookies tiers
Les cookies tiers sont ceux qui sont en cours d'analyse et qui n'ont pas encore été classés dans une catégorie.
Enregistrer & appliquer