Comment fonctionne Google

Publié le :

Voilà que maintenant on m'interroge sur le Google bombing à la suite de ce petit pied de nez. Une analyse du fonctionnement de Google s'impose pour comprendre son déroulement, prévisible.

Google dispose de plusieurs milliers de serveurs répartis dans une douzaine de datacenters. Dans chacun de ces datacenters, des robots (des programmes informatiques appelés GoogleBots) parcourent la Toile en permanence à la recherche de contenu frais (d'où leur petit nom de "freshbot"). La fréquence de visite de ces robots est directement proportionnelle à la fréquence de mise à jour d'un site. Pour padawan.info, par exemple, les GoogleBots passent en moyenne tous les jours et ne perdent aucune miette de tout ce qui y est publié. Lors de ces visites, seul l'index (les mots-clés associés à des URLs) est mis à jour en fonction des documents nouveaux ou modifiés.

Ceci explique pourquoi on a assisté dans les premiers jours qui ont suivi le lâcher de bombe à une valse hésitation dans les résultats, ceux-ci ne représentant qu'un classement sur les mots-clés à un instant T avec comme pondération la nouveauté (Google a tendance à favoriser un contenu tant qu'il est frais) et le placement des mots-clés dans le document (leur poids sémantique étant variable selon qu'ils sont présent dans le titre du document, un entête, le corps ou noyé dans un marquage HTML obscur). Le premier qui a créé une page avec ces mots-clés dans le titre de la page a eu son heure de gloire pendant cette période.

Mais Google ne serait pas Google sans sa formule magique dont l'ingrédient secret est le fameux PageRank (PR), qui est une indication du "poids" relatif d'un document sur le web. En plus de la présence des mots-clés et de leur valeur sémantique, Google attribue une note à chaque document qui détermine directement sa pertinence dans les résultats. La formule de calcul est un vrai secret industriel (peut-être même la seule vraie valeur de Google) mais son facteur principal est le nombre de liens qui pointent vers un document, comme mesure de sa popularité. Plus un document est lié par d'autres, plus il doit être pertinent, tel a été le raisonnement du créateur de cet algorithme, Larry Page, co-fondateur de Google. Si vous voulez en savoir plus sur le calcul du PR, je vous conseille cette explication qui se base sur la publication de l'algorithme initial. Pour ceux qui utilisent IE/Windows et ont installé la Google Bar, le PR est indiqué dynamiquement pour la page affichée.

On voit tout de suite que le calcul du PageRank est un processus nécessairement itératif, qui ne fait pas bon ménage avec une modification permanente de l'index. Comment intégrer une nouvelle page, qui n'a pas de PR initial, dans un ensemble gigantesque ? Quelle est son influence sur les autres documents ? Comment assurer la cohérence du calcul dans tous les datacenters ? Google a résolu ce problème en pratiquant le calcul du PR et la synchronisation de ses serveurs de manière globale, environ une fois par mois. Cette phase s'appelle la Google Dance (non, pas ça, ça).

Pendant la Google Dance, les liens entre documents sont analysés, et Google recalcule tous les PR. C'est d'ailleurs seulement après la Google Dance qu'on peut connaître les liens qui pointent vers un document (par exemple, qui pointe vers www.jeandionis.com, cette information n'est apparue que le 28 janvier). Notez que Google ne liste que les liens en provenance de pages qui ont un PR supérieur ou égal à 3. C'est également à la suite de cette étape que Google est capable d'intégrer le texte des liens à son index des mots-clés et de repérer des associations répétitives d'un ou plusieurs mots-clés vers une même URL.

Et voilà pourquoi votre fille est muette. Enfin, plutôt, voici pourquoi il a fallu un certain temps avant que Google n'associe les mots "député liberticide" avec le site d'un député maintenant bien connu des internautes. On me rapporte d'ailleurs que son webmestre est excité comme un chinchilla cocaïnomane au vu du trafic soudainement créé, il est vrai qu'il est passé d'un coup de 4 sites référants à 164 et qu'il ressort aussi en premier sur le mot clé "député", vous m'en voyez ravi. Il ressort aussi sur "liberticide" tout seul. Que voulez-vous, Google n'est pas parfait, comme quoi il vaut mieux n'accorder qu'une confiance relative dans la technologie. Mais vous l'aviez déjà compris, n'est-ce pas ?