PageRank
Glossaire – Définition
Le PageRank est l’algorithme mathématique fondateur de Google, breveté en 1998 par Larry Page et Sergey Brin à l’Université de Stanford. Il mesure l’autorité relative de chaque page web en calculant la quantité et la qualité des liens qui y pointent, selon le principe qu’un lien depuis une page autoritaire vaut plus qu’une multitude de liens depuis des pages faibles.
Le PageRank est souvent présenté comme une relique du SEO des années 2000, abandonnée depuis la suppression de la Google Toolbar en 2016. C’est une idée fausse et coûteuse. Google a confirmé à plusieurs reprises que le PageRank continue d’alimenter son algorithme de classement, sous des formes évoluées et non publiques. Ne pas le comprendre, c’est travailler sans saisir les fondements mêmes de l’autorité sur le web.
Pour bien comprendre :
- PageRank : comment fonctionne la formule originelle ?
- Quelles sont les évolutions du PageRank depuis sa création ?
- Comment évaluer l’autorité d’une page sans accès au PageRank Google ?
- Les 5 leviers pour maximiser le PageRank interne et externe de votre site
- L’avis de l’expert B-Strong
- Questions fréquentes
PageRank : comment fonctionne la formule originelle ?
La formule du PageRank repose sur un principe élégant emprunté à la bibliométrie : l’importance d’une page se mesure à l’importance des pages qui la citent. Larry Page et Sergey Brin l’ont formalisée dans leur article fondateur « The Anatomy of a Large-Scale Hypertextual Web Search Engine » (Stanford, 1998). En voici les mécanismes clés :
- Le modèle du « Random Surfer » : La formule simule le comportement d’un internaute qui navigue aléatoirement sur le web en cliquant sur des liens. À chaque page, il a une probabilité de suivre un lien et une probabilité de « sauter » vers une page aléatoire (le damping factor). Le PageRank d’une page représente la probabilité que cet internaute aléatoire se trouve sur cette page à un instant donné. Plus cette probabilité est élevée, plus la page est autoritaire.
- Le damping factor (facteur d’amortissement) : Fixé à 0,85 dans l’article originel de Stanford, ce coefficient représente la probabilité que l’internaute aléatoire continue à cliquer sur un lien (85 %) plutôt que de sauter vers une page aléatoire (15 %). Il empêche le PageRank de se concentrer indéfiniment sur un petit nombre de pages et introduit un « bruit de fond » qui distribue une part minimale d’autorité à toutes les pages indexées.
- La formule PageRank simplifiée : PR(A) = (1 – d) + d × Σ [PR(Ti) / C(Ti)] — où PR(A) est le PageRank de la page A, d est le damping factor (0,85), PR(Ti) est le PageRank de chaque page Ti pointant vers A, et C(Ti) est le nombre total de liens sortants de la page Ti. Cette formule capture deux principes fondamentaux : l’autorité se transmet par les liens, et elle se dilue proportionnellement au nombre de liens sortants d’une page source.
- Le calcul itératif : Le PageRank ne se calcule pas en une seule passe. Il nécessite des dizaines d’itérations sur l’ensemble du graphe du web jusqu’à convergence. Chaque itération met à jour le score de chaque page en fonction des scores mis à jour de ses pages sources. Cette propriété récursive est ce qui rend le PageRank à la fois puissant (il propage l’autorité sur plusieurs niveaux de liens) et coûteux à calculer à l’échelle du web.
- Le problème des « dangling nodes » et des « rank sinks » : Dès l’article originel, Page et Brin identifient deux problèmes structurels. Les dangling nodes sont des pages sans liens sortants qui accumulent du PageRank sans le redistribuer. Les rank sinks sont des groupes de pages qui se lient mutuellement en circuit fermé, capturant le PageRank entrant sans le redistribuer au reste du graphe. Le damping factor est la solution mathématique à ces deux problèmes.
Quelles sont les évolutions du PageRank depuis sa création ?
Le PageRank public affiché dans la Google Toolbar (de 0 à 10) a disparu en 2016. Mais l’algorithme sous-jacent a continué d’évoluer, intégrant des signaux de plus en plus sophistiqués que les versions originelles ne prenaient pas en compte :
- Le Reasonable Surfer Model (brevet Google 2004, mis à jour 2016) : Le modèle du « Random Surfer » originel traite tous les liens d’une page comme également susceptibles d’être cliqués. Le Reasonable Surfer Model introduit la probabilité de clic différenciée selon la position du lien (corps éditorial vs footer vs navigation), sa visibilité (couleur, taille de police, texte d’ancre), et sa pertinence contextuelle. Un lien dans un paragraphe éditorial pertinent transmet plus de PageRank qu’un lien de footer générique — ce que la formule de 1998 ne pouvait pas capturer.
- Le Topic-Sensitive PageRank (Taher Haveliwala, Stanford 2002) : Cette extension du PageRank calcule non pas un score global unique mais des scores thématiques distincts selon les domaines de connaissance (sport, santé, technologie, finance…). Une page très autoritaire sur la finance transmet plus de PageRank thématique à une page financière qu’à une page culinaire. C’est la fondation algorithmique de ce que le SEO moderne appelle la « Topical Authority ».
- TrustRank (Gyöngyi & Garcia-Molina, Stanford 2004) : Une variante du PageRank conçue pour résister au spam. Au lieu de propager l’autorité depuis toutes les pages, TrustRank part d’un ensemble de pages manuellement vérifiées comme fiables (seed set) et propage la confiance à partir de ces ancres. Les pages proches des sources de confiance héritent d’un score de confiance élevé. Ce mécanisme est à la base du système de détection de spam de Google et de l’importance accordée aux liens depuis des domaines institutionnels ou journalistiques reconnus.
- Le PageRank interne comme signal de crawl : Indépendamment du classement, le PageRank interne d’une page influence le Crawl Budget alloué par Googlebot. Les pages avec un PageRank interne élevé sont crawlées plus fréquemment et indexées plus rapidement. Un maillage interne bien structuré n’est donc pas seulement un signal de classement — c’est un levier d’indexation, particulièrement critique pour les sites de grande taille ou les pages récemment publiées.
- Le PageRank dans l’ère de l’IA générative : Les modèles de langage (LLM) utilisés dans Google AI Overviews et les moteurs génératifs concurrents ont été partiellement entraînés sur des corpus dont la sélection et la pondération reflètent implicitement les signaux de PageRank. Les pages à fort PageRank sont surreprésentées dans les corpus d’entraînement des LLM, ce qui crée un biais de citation favorable — un pont direct entre le SEO classique basé sur le PageRank et la Cite-ability GEO.
Comment évaluer l’autorité d’une page sans accès au PageRank Google ?
Depuis la suppression de la Google Toolbar en 2016, aucun outil tiers ne donne accès au PageRank réel calculé par Google. Plusieurs métriques propriétaires permettent cependant d’en approximer les signaux avec une corrélation statistiquement significative.
Méthode 1 — Métriques d’autorité tierces (approximations du PageRank)
- Consultez l’URL Rating (UR) d’Ahrefs au niveau de la page et le Domain Rating (DR) au niveau du domaine — l’une des approximations les plus corrélées au PageRank selon les études de corrélation indépendantes.
- Comparez avec le Page Authority (PA) et le Domain Authority (DA) de Moz, basés sur leur propre index de liens, et le Trust Flow / Citation Flow de Majestic (ratio qualité / quantité des liens).
- Croisez ces métriques : une page avec un UR Ahrefs élevé et un Trust Flow Majestic fort présente un profil d’autorité cohérent. Des divergences importantes entre outils signalent souvent des profils de liens atypiques à investiguer.
- Analysez la distribution de l’autorité interne avec Screaming Frog (rapport « Link Equity » simulé) pour identifier les pages stratégiques sous-alimentées en PageRank interne.
- Signal d’alerte : un écart important entre l’autorité de la homepage (DR/DA élevé) et l’autorité des pages profondes (UR/PA faible) révèle un problème de transmission de PageRank via le maillage interne — l’un des patterns les plus fréquents dans les audits SEO.
Méthode 2 — Observation indirecte via les comportements de crawl
Le comportement de Googlebot sur votre site reflète indirectement la distribution du PageRank interne. Analysez les logs serveur (via un outil comme Screaming Frog Log Analyser ou OnCrawl) pour comparer la fréquence de crawl de chaque URL. Les pages fréquemment crawlées bénéficient d’un PageRank interne élevé. Les pages peu ou jamais crawlées sont soit faiblement liées en interne, soit jugées peu autoritaires par Google — deux problèmes distincts aux solutions différentes.
Les 5 leviers pour maximiser le PageRank interne et externe de votre site
Agir sur le PageRank, c’est agir sur deux dimensions simultanément : l’acquisition d’autorité externe (backlinks) et la transmission efficace de cette autorité en interne (maillage). Les deux sont indissociables.
| Levier | Action technique ou éditoriale | Effet sur le PageRank | Priorité |
|---|---|---|---|
| Architecture en silos thématiques | Organiser le site en silos cohérents (un silo par thématique principale) avec des liens internes forts au sein de chaque silo et des liens croisés contrôlés entre silos. Cette structure concentre le PageRank thématique sur chaque territoire sémantique, amplifiant simultanément le Topic-Sensitive PageRank et la Topical Authority perçue par Google. | Augmentation du PageRank thématique sur les pages cibles de chaque silo. Accélération du crawl des pages profondes. Signal fort pour le Topic-Sensitive PageRank. | Prioritaire |
| Récupération du PageRank perdu sur les 404 et redirections | Identifier via Ahrefs ou Semrush les backlinks pointant vers des URLs en 404 ou redirigées en chaîne. Mettre en place des redirections 301 directes vers la page de remplacement thématiquement la plus proche. Une redirection 301 transmet ~99 % du PageRank contre 0 % pour une URL morte ou une redirection 302. | Récupération immédiate du PageRank entrant accumulé sur les URLs mortes. Impact direct sur l’autorité des pages de destination choisies. | Prioritaire |
| Concentration des liens internes vers les pages prioritaires | Identifier les pages qui reçoivent le plus de backlinks externes (hubs d’autorité). S’assurer que ces pages distribuent leur PageRank via des liens internes vers les pages stratégiques (pages de service, landing pages commerciales). Réduire le nombre de liens sortants sur les pages hub pour augmenter le PageRank unitaire transmis par lien. | Amélioration directe du PageRank des pages commerciales stratégiques. Réduction de la dilution par les pages sans valeur business. | Prioritaire |
| Acquisition de backlinks depuis des domaines à fort TrustRank | Prioriser les backlinks éditoriaux depuis des domaines institutionnels (presse nationale, sites gouvernementaux, universités), des médias sectoriels reconnus et des sites à fort Trust Flow Majestic. Un seul lien depuis un domaine à fort TrustRank peut valoir structurellement plus qu’une centaine de liens depuis des domaines de faible qualité. | Augmentation du TrustRank du domaine et du PageRank absolu des pages de destination. Résistance accrue aux filtres anti-spam de Google (SpamBrain). | Intermédiaire |
| Réduction des fuites de PageRank vers l’externe | Auditer tous les liens sortants du site (vers des domaines externes). Appliquer rel="nofollow" sur les liens vers des partenaires commerciaux, des annuaires ou des pages sans valeur thématique. Préserver les liens dofollow pour les citations éditoriales légitimes (sources, études, références institutionnelles) qui renforcent le signal E-E-A-T sans nuire au PageRank interne. |
Rétention d’une plus grande part du PageRank dans le graphe interne du site. Équilibre entre signal de qualité éditoriale (liens sortants pertinents) et conservation de l’autorité. | Complémentaire |
L’avis de l’expert B-Strong
Sources citées
- Page L. & Brin S. — The Anatomy of a Large-Scale Hypertextual Web Search Engine, Stanford 1998
- Moz — PageRank and Google’s Link-Based Ranking Algorithm
- Ahrefs Blog — Google PageRank: Is It Still a Ranking Factor?
- Google Patents — US7058628B1 — Reasonable Surfer Model (2004)
Ce qu’on nous demande souvent
Le PageRank Google est-il vraiment toujours actif en 2025 ?
Oui. Malgré la suppression de la Google Toolbar PageRank en 2016, Google a confirmé à plusieurs reprises que l’algorithme PageRank reste un signal de classement actif. Gary Illyes (Google) a déclaré en 2016 que le PageRank est calculé sur « toutes les pages que nous crawlons » et reste utilisé en interne. Ce qui a disparu, c’est uniquement le score public affiché de 0 à 10 — pas le calcul sous-jacent qui détermine l’autorité relative des pages dans l’index de Google.
Quelle est la différence entre le PageRank et le Domain Authority (DA) de Moz ?
Le PageRank est un calcul propriétaire de Google, non public depuis 2016, qui mesure l’autorité d’une page individuelle au sein du graphe de liens du web entier tel que Google l’indexe. Le Domain Authority (DA) de Moz est une métrique propriétaire tierce, notée de 0 à 100, construite à partir de l’index de liens de Moz (qui est une fraction de l’index Google) et conçue pour prédire la capacité d’un domaine à se classer. DA et DR (Ahrefs) sont des approximations statistiquement corrélées au PageRank réel, mais pas équivalentes. Utiliser DA ou DR comme proxy du PageRank est acceptable en pratique — les confondre conceptuellement est une erreur de raisonnement.
Un site avec peu de pages peut-il avoir un PageRank élevé ?
Oui, et c’est même l’une des situations les plus favorables. Un site de 50 pages qui reçoit des backlinks de qualité depuis des domaines institutionnels concentre tout le PageRank entrant sur un petit nombre d’URLs. Chaque page bénéficie d’une autorité relative plus élevée qu’un site de 50 000 pages qui dilue la même quantité de PageRank entrant entre des milliers d’URLs. C’est pourquoi la stratégie de consolidation du contenu (fusion de pages faibles, suppression des pages sans valeur) améliore structurellement le PageRank moyen des pages restantes.
Les liens depuis les réseaux sociaux transmettent-ils du PageRank ?
Non, ou de façon négligeable. Les liens publiés sur les plateformes sociales majeures (Facebook, Twitter/X, LinkedIn, Instagram) sont systématiquement balisés en rel="nofollow" ou rel="ugc", ce qui signale à Google de ne pas les utiliser pour la transmission de PageRank. Ils peuvent générer du trafic de référence direct et des signaux de popularité indirects, mais ne constituent pas une source de PageRank exploitable pour le classement organique. Les backlinks qui transmettent du PageRank doivent provenir de pages web indexées par Google avec un attribut dofollow.
Demandez un audit gratuit de votre site !
Réponse sous 24h — Sans engagement
Demandez votre audit d’autorité gratuit et découvrez en 30 minutes comment le PageRank se distribue — et se perd — sur votre site.
