Google PageRank expliqué aux débutants SEO

google PageRank formule

Dans cet article

Le Google PageRank était autrefois au cœur même de la recherche, et c’est ce qui a fait de Google l’empire qu’il est aujourd’hui.

Même si vous pensez que la recherche a évolué depuis Google PageRank, il est indéniable qu’il s’agit d’un concept omniprésent dans le secteur.

Tout professionnel du SEO devrait avoir une bonne connaissance de ce qu’était le PageRank et de ce qu’il est encore aujourd’hui.

Qu’est-ce que le PageRank ?

google PageRank formule

Créé par Larry Page et Sergey Brin, fondateurs de Google, le PageRank est un algorithme basé sur la force relative combinée de tous les hyperliens présents sur Internet.

La plupart des gens affirment que le nom est basé sur le nom de famille de Larry Page, tandis que d’autres suggèrent que « Page » fait référence à une page web. Les deux positions sont probablement vraies, et le chevauchement était probablement intentionnel.

Lorsque Page et Brin étaient à l’université de Stanford, ils ont rédigé un document intitulé : The PageRank Citation Ranking : Bringing Order to the Web.

Publié en janvier 1999, cet article présente un algorithme relativement simple permettant d’évaluer la force des pages web.

Le document a ensuite été breveté aux États-Unis (mais pas en Europe, où les formules mathématiques ne sont pas brevetables).

L’université de Stanford est propriétaire du brevet et l’a cédé à Google. Le brevet expire actuellement en 2027.

Historique de l’évolution du PageRank

À la fin des années 1990, alors qu’ils étudiaient à Stanford, Brin et Page se sont penchés sur les méthodes de recherche d’informations.

À l’époque, l’utilisation de liens pour déterminer l’importance de chaque page par rapport à une autre constituait une méthode révolutionnaire pour classer les pages. Il s’agissait d’une méthode difficile sur le plan informatique, mais en aucun cas impossible.

L’idée s’est rapidement transformée en Google, qui n’était à l’époque qu’un petit poucet dans le monde de la recherche.

Certaines parties croyaient tellement à l’approche de Google que l’entreprise a initialement lancé son moteur de recherche sans pouvoir générer de revenus.

Alors que Google (connu à l’époque sous le nom de « BackRub ») était le moteur de recherche, PageRank était l’algorithme utilisé pour classer les pages dans les pages de résultats des moteurs de recherche (SERP).

La danse de Google

L’un des défis posés par Google PageRank est que les mathématiques, bien que simples, doivent être traitées de manière itérative. Le calcul est effectué plusieurs fois, sur chaque page et chaque lien de l’internet. Au début du millénaire, il fallait plusieurs jours pour effectuer ce calcul.

Pendant ce temps, les SERPs de Google montaient et descendaient. Ces changements étaient souvent erratiques, car de nouveaux PageRanks étaient calculés pour chaque page.

C’est ce que l’on appelait la « danse de Google » et qui, de notoriété publique, arrêtait les professionnels du référencement de l’époque à chaque fois que Google lançait sa mise à jour mensuelle.

(La « Google Dance » est devenue le nom d’une fête annuelle organisée par Google pour les experts en référencement à son siège de Mountain View).

Des graines de confiance

Une itération ultérieure du Google PageRank a introduit l’idée d’une « graine de confiance » pour lancer l’algorithme, au lieu de donner la même valeur initiale à toutes les pages de l’internet.

Surfeur raisonnable

Une autre itération du modèle a introduit l’idée d’un « internaute raisonnable ».

Ce modèle suggère que le Google PageRank d’une page pourrait ne pas être partagé de manière égale avec les pages vers lesquelles elle renvoie, mais qu’il pourrait pondérer la valeur relative de chaque lien en fonction de la probabilité qu’un utilisateur clique dessus.

Le recul du PageRank

L’algorithme de Google était initialement considéré comme « anti-spam » en interne puisque l’importance d’une page était dictée non seulement par son contenu, mais aussi par une sorte de « système de vote » généré par les liens vers la page.

La confiance de Google n’a cependant pas duré.

PageRank a commencé à poser des problèmes au fur et à mesure que l’industrie des liens retour se développait. Google l’a donc retiré de la vue du public, mais a continué à s’en servir pour ses algorithmes de classement.

La barre d’outils de Google PageRank a été retirée en 2016, et finalement, tout accès public au PageRank a été réduit. Mais à cette époque, Majestic (un outil de référencement), en particulier, avait été en mesure de corréler ses propres calculs avec le PageRank.

Google a passé de nombreuses années à encourager les professionnels du référencement à ne pas manipuler les liens par le biais de sa documentation « Google Guidelines » et des conseils de son équipe anti-spam, dirigée par Matt Cutts, jusqu’en janvier 2017.

Les algorithmes de Google ont également évolué au cours de cette période.

L’entreprise s’appuyait moins sur le PageRank et, suite à l’achat de MetaWeb et de son Knowledge Graph propriétaire (appelé « Freebase » en 2014), Google a commencé à indexer les informations du monde entier de différentes manières.

Barre d’outils PageRank et PageRank

google PageRank formule

À l’origine, Google était tellement fier de son algorithme qu’il était heureux de partager publiquement le résultat de ses calculs avec tous ceux qui le souhaitaient.

La représentation la plus notable était une extension de la barre d’outils pour des navigateurs tels que Firefox, qui affichait une note comprise entre 0 et 10 pour chaque page sur l’internet.

En réalité, Google PageRank dispose d’un éventail de notes beaucoup plus large, mais la note de 0 à 10 a permis aux spécialistes du référencement et aux consommateurs d’évaluer instantanément l’importance de n’importe quelle page sur l’internet.

La barre d’outils PageRank a rendu l’algorithme extrêmement visible, ce qui n’allait pas sans complications. En particulier, il est apparu clairement que les liens étaient le moyen le plus facile de « jouer » avec Google.

Plus il y a de liens (ou, plus précisément, plus le lien est de qualité), mieux une page peut se classer dans les SERPs de Google pour n’importe quel mot clé ciblé.

Un marché secondaire s’est donc formé, achetant et vendant des liens évalués en fonction du PageRank de l’URL où le lien était vendu.

Ce problème a été exacerbé lorsque Yahoo a lancé un outil gratuit appelé Yahoo Search Explorer, qui permettait à tout un chacun de commencer à trouver des liens vers une page donnée.

Plus tard, deux outils – Moz et Majestic – se sont appuyés sur l’option interne en construisant leurs propres index sur l’internet et en évaluant séparément les liens.

Comment le PageRank a révolutionné la recherche

Les autres moteurs de recherche reposaient essentiellement sur l’analyse du contenu de chaque page. Ces méthodes ne permettaient guère d’identifier la différence entre une page influente et une page simplement rédigée avec du texte aléatoire (ou manipulé).

Les méthodes de recherche des autres moteurs de recherche étaient donc extrêmement faciles à manipuler par les spécialistes du référencement.

L’algorithme du Google PageRank a donc été révolutionnaire.

Combiné à un concept relativement simple de « N-Gramme » pour aider à établir la pertinence, Google a trouvé une formule gagnante.

Il a rapidement dépassé les principaux titulaires de l’époque, tels qu’AltaVista et Inktomi (qui alimentait MSN, entre autres).

En opérant au niveau de la page, Google a également trouvé une solution beaucoup plus évolutive que l’approche basée sur les « annuaires » adoptée par Yahoo et plus tard par DMOZ – bien que DMOZ (également appelé Open Directory Project) ait été en mesure de fournir à Google, dans un premier temps, un annuaire à code source ouvert qui lui était propre.

Comment fonctionne le PageRank

La formule du Google PageRank se présente sous plusieurs formes, mais peut être expliquée en quelques phrases.

Au départ, chaque page de l’internet se voit attribuer un score PageRank estimé. Il peut s’agir de n’importe quel chiffre. Historiquement, Google PageRank a été présenté au public sous la forme d’un score compris entre 0 et 10, mais dans la pratique, les estimations ne doivent pas nécessairement commencer dans cette fourchette.

Le PageRank de cette page est ensuite divisé par le nombre de liens sortant de la page, ce qui donne une fraction plus petite.

Le PageRank est ensuite réparti entre les pages liées, et il en va de même pour toutes les autres pages de l’internet.

Lors de l’itération suivante de l’algorithme, la nouvelle estimation du PageRank pour chaque page est la somme de toutes les fractions de pages qui renvoient à chaque page donnée.

La formule contient également un « facteur d’amortissement », qui a été décrit comme le risque qu’une personne surfant sur le web arrête complètement de surfer.

Avant le début de chaque itération de l’algorithme, le nouveau PageRank proposé est réduit du facteur d’amortissement.

Cette méthode est répétée jusqu’à ce que les scores de PageRank atteignent un équilibre stable. Les nombres obtenus ont ensuite été transposés dans une fourchette plus reconnaissable de 0 à 10 pour des raisons de commodité.

Une façon de représenter cela mathématiquement est la suivante :

pagerank 64245ec24f5d5 sej 480x139 1

Où :

  • PR = PageRank à la prochaine itération de l’algorithme.
  • d = facteur d’amortissement.
  • j = numéro de page sur l’internet (si chaque page avait un numéro unique).
  • n = nombre total de pages sur l’internet.
  • i = l’itération de l’algorithme (initialement fixée à 0).

La formule peut également être exprimée sous forme de matrice.

Problèmes et itérations de la formule

La formule présente quelques difficultés.

Si une page ne renvoie à aucune autre page, la formule n’atteindra pas l’équilibre.

Dans ce cas, Google PageRank serait réparti entre toutes les pages de l’internet. Ainsi, même une page sans liens entrants pourrait obtenir un certain PageRank, mais il ne serait pas suffisamment élevé pour être significatif.

Un autre problème moins documenté est que les pages les plus récentes, bien que potentiellement plus importantes que les pages plus anciennes, auront un PageRank plus faible. Cela signifie qu’au fil du temps, un contenu ancien peut avoir un PageRank disproportionné.

La durée de vie d’une page n’est pas prise en compte dans l’algorithme.

Comment le PageRank circule-t-il entre les pages ?

Si une page commence avec une valeur de 5 et a 10 liens, chaque page vers laquelle elle renvoie se voit attribuer un PageRank de 0,5 (moins le facteur d’amortissement).

De cette manière, le PageRank circule sur l’internet entre les itérations.

Lorsque de nouvelles pages apparaissent sur l’internet, elles n’ont au départ qu’un PageRank minuscule. Mais au fur et à mesure que d’autres pages commencent à créer des liens vers ces pages, leur PageRank augmente au fil du temps.

Le PageRank est-il encore utilisé ?

Bien que l’accès public au Google PageRank ait été supprimé en 2016, on pense que les ingénieurs de recherche de Google ont toujours accès à ce score.

Une fuite des facteurs utilisés par Yandex a montré que Google PageRank restait surement un facteur utilisé (c’est le cas du PageRank interne de Yandex).

Les ingénieurs de Google ont suggéré que la forme originale du PageRank a été remplacée par une nouvelle approximation dont le calcul nécessite moins de puissance de traitement. Bien que la formule soit moins importante dans la manière dont Google classe les pages, elle reste constante pour chaque page web.

Et quels que soient les autres algorithmes auxquels Google pourrait choisir de faire appel, Google PageRank reste probablement intégré dans de nombreux systèmes du géant de la recherche jusqu’à aujourd’hui.

Ainsi, si vous souhaitez maximiser votre visibilité en ligne et améliorer votre classement dans les moteurs de recherche, contactez notre agence SEO.

Dernières actualités

Newsletter

Pas de spam, uniquement des astuces Webmarketing !

Partager

[Hello Code]

Articles récents

vendre-sur-google-shopping-header
Comment vendre sur Google Shopping en 2024 ?
Que vous dirigiez une entreprise de e-commerce ou de vente au détail, il y a de fortes chances que vous...
Lire plus
Hébergement web pour le SEO header
L'importance d'un hébergement web pour le SEO en 2024
Vous voulez connaître un moyen simple d’accélérer et d’améliorer les performances globales...
Lire plus
Elaborer une stratégie de marketing direct
Comment élaborer une stratégie de marketing direct en 2024 ?
Le marketing direct est une forme de publicité dans laquelle les entreprises communiquent directement...
Lire plus