NOFOLLOW contre le spam : traduction geek/neuneu

Publié le :

A la demande de Cyrille, je vais tenter une traduction de mon billet de geek sur l'anti-spam de commentaires pour les non comprenants, aussi appelés "neuneux". Ca ne va pas être facile, il va rester des petits morceaux de geekerie qui craquent sous la dent. Je tiens donc à préciser que j'ai ajouté des morceaux d'humour dedans pour adoucir tout ça*.

Je vais commencer par introduire un concept à la base du classement des résultats dans Google : le PageRank™ (PR). Google attribue un poids à toutes les pages qu'il indexe dans son moteur de recherche. Ce poids est calculé par un algorithme de geek très compliqué que je ne m'aventurerai pas à expliquer aux blondes, mais ça n'a pas d'importance. Retenez juste que plus une page a un PR élevé, donc plus elle est lourde, plus elle monte dans les résultats (c'est contre-intuitif, mais c'est normal, c'est un truc de geeks). Le summum est d'avoir un PR de 10, qui vous assure pratiquement d'être le premier résultat (sinon dans la première page) d'une recherche sur les bons mots-clés. Le moyen honnête d'avoir un bon PR est de publier du bon contenu intéressant ce qui a deux effets : Google va indexer ce contenu et en extraire des mots-clés mais, surtout, d'autres personnes vont faire des liens qui pointent vers ce contenu. C'est là qu'intervient une notion importante utilisée par les moteurs de recherche : si des gens pointent vers une page, c'est que son contenu doit être intéressant. Et comme les geeks de Standford qui ont créé Google sont la crème de l'élite, ils ont aussi décrété que si des gens influents pointent vers une page, c'est que ladite page doit être vraiment intéressante. En langage de geek, ça s'appelle le transfert de PR, et ça signifie que Google regarde le poids des pages qui pointent vers une autre page pour pondérer le poids de la destination. Si quelqu'un avec un PR de 10 pointe vers une de vos pages, le PR de celle-ci va augmenter beaucoup plus que si une ribambelle de sites avec un PR de 1 (donc sans importance, selon Google) font la même chose.

Les spammeurs ont besoin de trafic vers leurs sites pour attraper les gogos. Si vous avez un peu regardé vos statistiques, vous devriez constater, si vous avez assez de contenu depuis suffisamment de temps pour être indexé, qu'une partie importante de votre trafic provient des moteurs de recherche (Google en tête). C'est dans la nature de l'internaute (qu'il soit geek ou neuneu) de chercher sur internet, et c'est bien. Alors les spammeurs font tout ce qu'ils peuvent pour que leurs sites apparaissent le plus haut possible dans les résultats des moteurs de recherche, et comme ils n'ont pas vraiment la possibilité d'y arriver en publiant du bon contenu tellement intelligent que tout le monde ferait des liens dessus, ils ont trouvé un moyen de tromper Google et consorts en plaçant des liens partout où ils le peuvent, notamment via les commentaires et les TrackBacks des blogs. Ce faisant, ils augmentent le poids de leurs sites en "pompant" celui des pages qu'ils spamment. Et voilà pourquoi les spammeurs innondent les blogs, wikis, forums et toute place publique, par effet de masse, ils augmentent le PR de leurs sites et obtiennent de bons placements dans les résultats de recherche.

Google, Yahoo! et MSN Search (sous la pression des blogueurs et des éditeurs de blogs à mon avis) se sont finalement décidé à se mettre d'accord pour trouver une parade à ce petit jeu. En modifiant légèrement la façon de faire un lien, on peut désormais dire à ces moteurs de recherche de ne pas tenir compte du poids de la page source (qui porte le lien) pour calculer celui de la page liée. De ce fait, et à condition que cette méthode soit généralisée partout où des spammeurs peuvent venir décharger leurs ordures, ce petit jeu de spam va perdre tout son intérêt, et les sites des spammeurs vont retourner bien au fond dans les moteurs de recherche.

Maintenant, pour expliquer comment faire sans parler geek, je ne vois pas, mais essayons avec un exemple :

1. 20/20. Peut mieux faire !
2. 20/20. Peut mieux faire !

A première vue, les deux liens ci-dessus sont identiques. Mais pour les moteurs de recherche, désormais, seul le premier a une chance d'augmenter le poids de la page d'accueil du site de Cyrille, grâce au poids considérable du padawan bien sûr ;-). Le second n'apportera rien en terme de poids, car les moteurs vont l'ignorer.

Quelle est la différence entre ces deux liens ? Là, je prie les neuneux de m'excuser et les blondes de détourner les yeux, parce que je vais dévoiler du code HTML tout nu devant vous pour tenter de vous montrer à quoi ressemble un lien hypertexte dans le code :

1. <a href="http://cdelasteyrie.typepad.com/sidiese/">20/20. Peut mieux faire !</a>
2. <a href="http://cdelasteyrie.typepad.com/sidiese/" rel="nofollow">20/20. Peut mieux faire !</a>

La différence, c'est ce petit bout de code (que les geeks appellent un attribut) : rel="nofollow" et qui dit "no follow", ne pas suivre en glish.

Pour finir, la nature étant bien faite, tous les neuneux étant sur TypePad et toutes les blondes sur ViaBloga, ces belles plateformes ont déjà fait le travail pour vous (pour les liens externes ajoutés par d'autres que vous dans les commentaires et les rétroliens), vous n'avez pas à mettre les mains dans le cambouis. Maintenant, pour les vrais blogueurs, les geeks de chez geeks qui en ont (pouf pouf), ils devront le faire à la mimine ou bien installer une extension dans leur logiciel qui le fera automatiquement (parce que c'est bien connu, les geeks sont des paresseux).

Notre ami Matoo demande si les spammeurs ne cherchent pas non plus à ce que les gens cliquent sur les liens. Les spammeurs neuneux peut-être, mais est-ce que vous cliquez sur ces liens vous ? Ah, vous avez besoin de Viagra ? Ca peut arriver à tout le monde, alors le lien est utile dans ce cas, non ? Sérieusement, peut-être que c'est le cas pour certains, mais ils vont devoir être plus créatifs dans leur prose pour tromper le chaland afin qu'il clique. Et ce faisant, les systèmes anti-spam classiques qui existent pour le courriel et qui sont basés sur (attention grosse geekerie !) l'apprentissage automatique et les filtres bayesiens (Apple Mail, Mozilla Thunderbird, MT-Blacklist et autres sont basés là dessus) vont devenir des compléments efficaces contre ce type de spam.

Voilà, j'espère que Cyrille a compris, j'attends la note !

(*) donc, traduit pour les blondes et les neuneux, ça veut dire que je n'ai absolument rien contre les blondes et les neuneux ;-). Si vous êtes blonde, remplacez par neuneu, et réciproquement. Si vous êtes blonde et neuneu, là c'est une autre histoire...