Référencement « Blackhat SEO » et distribution de malwares

Date : 05 Mai 2011

 

De plus en plus d’attaques informatiques exploitent la navigation web des internautes. Habituellement les tentatives d’attaques ont comme vecteurs les emails (ex. phishing), ou la navigation sur des sites compromis par un pirate. Elles peuvent donc également venir au hasard d’une recherche anodine sur un moteur tel que Google.

Une simple et « banale » requête sur Google, peut conduire un internaute à télécharger du code malveillant qui exploitera les vulnérabilités de son poste, s’il clique sur l’un des résultats proposés en réponse !

Pour ce faire des pirates ont détourné l’usage initial des algorithmes d’indexation et de référencement SEO (Search Engine Optimization) des moteurs de recherche tels que Google, Bing, etc. pour propager toutes sortes de malwares.

Ces attaques font régulièrement les titres de la presse spécialisée, car elles utilisent des techniques pirates dites « Blackhat SEO ». Dernière victime en date, Apple fin avril a vu un faux antivirus pour Mac OS X circuler sur Internet via un référencement illégitime, comme le rappelle l’article de ZDNet « New MAC OS X scareware delivered through blackhat SEO ».

Comprenons bien ici que le « Blackhat SEO » n’est pas en soi, une technique de propagation de malwares Il conviendrait mieux d’ailleurs, de l’appeler « SEO non éthique » ou « référencement non éthique », car elle reflète des pratiques « déloyales » utilisées par les référenceurs du web. Cependant par rebond, elle peut être utilisée comme vecteur de propagation de codes malveillants. C’est ce que nous allons voir plus loin dans cet article.

Cet article a pour objectif d’expliquer comment cette pratique du référencement « non éthique » permet à des pirates de distribuer massivement avec la complicité non-souhaitée des moteurs de recherches, des virus, des vers ou tout autre code malveillant. Nous ne décrirons pas les méandres complexes du référencement, nous n’expliquerons pas non plus les technologies complexes d’indexation des pages par les moteurs de recherche. Nous ne parlerons donc pas ici du SEA (Search Engine Advertisement) ou SEM (Search Engine Marketing), aussi connus sous le nom de « liens sponsorisés » exploités par les régies publicitaires. Nous parlerons plutôt du SEO, et surtout de son détournement par les pirates.


Le « Graal » des moteurs de recherche : La première place !

Sur l’Internet, les sites web redoublent de techniques pour accroitre leur visibilité et attirer plus de visiteurs que la concurrence. Autrement dit, les sites web évoluant dans des secteurs à très fort potentiel concurrentiel, tentent d’être le plus visibles possible sur les moteurs de recherche. Les moteurs de recherche sont devenus de facto des champs de bataille du référencement. Le gagnant étant celui qui obtient la meilleure place dans l’indexation, c'est-à-dire le meilleur PR (Page Ranking).

En effet près de 80% des internautes utilisent un moteur de recherche pour accéder à une information ou à une ressource de l’Internet. Il est plus facile de passer par un moteur de recherche pour chercher quelque chose, que de mémoriser une URL souvent complexe et surtout susceptible de changer dans le temps.

Le référencement des pages, leur indexation par les moteurs de recherche sont des mondes à part entière. L’internaute ne s’aperçoit généralement pas que des stratégies de référencement sont utilisées lorsqu’il navigue. Ses clics, sa provenance (l’URL précédemment visitée), sont des données vitales pour le moteur de recherche qui va permettre d’induire les pages de résultats affichées.

Des sociétés spécialisées dans le référencement exploitent désormais ces données afin d’offrir une meilleure visibilité aux sites web de leurs clients. Ces sociétés sont devenues maîtres dans l’exploitation des diverses technologies pour figurer dans les premières pages de résultats des moteurs de recherche, voire les premiers liens.

Avant de poursuivre plus en avant sur la distribution de malwares via le « blackhat SEO » à proprement parler, il est nécessaire de comprendre en quoi consistent les techniques de référencement SEO.

 

Le SEO, kézako ?

Comme nous l’avons vu plus haut, l’acronyme SEO signifie « Search Engine Optimization ». Il est également appelé « référencement organique » ou « référencement naturel », ce qui est tout aussi abscons que l’acronyme. Derrière ces 3 lettres se cachent des techniques complexes de référencement et d’indexation des pages hébergées sur le web, et utilisées par les moteurs de recherches pour présenter les meilleurs résultats aux requêtes des internautes.

Ce que les internautes ignorent, c’est que la création de sites web à forte valeur ajoutée tels que ceux du commerce en ligne (entre autres), nécessite un travail considérable en termes de visibilité. Nous l’avons dit plus haut, l’objectif est bel et bien d’obtenir une meilleure place que les autres. Dans le langage des référenceurs SEO, les points suivants sont essentiels :

  • Le choix des expressions ou des mots clés utilisés dans les pages web,
  • L’optimisation des pages,
  • L’architecture du site,
  • La facilité d’indexation du contenu des pages par les robots des moteurs de recherche,
  • L’étude de la fréquentation,
  • Le positionnement stratégique et marketing,
  • Etc.

Ces aspects sont fondamentaux dans la réussite du bon référencement d’un site web. Ils doivent s’accompagner d’un suivi régulier des bonnes pratiques du référencement (sorte de charte des moteurs de recherche). Si l’on considère le moteur de recherche le plus célèbre, Google, pas moins de 200 paramètres sont pris en compte par ses algorithmes de référencement/indexation (caffeine et Mayday), chargés de présenter les résultats des requêtes aux internautes.

En résumé le SEO, est un ensemble de procédés complexes d’amélioration de la visibilité des sites web dans les moteurs de recherche d’Internet.

 

Pourquoi optimiser son site ?

La première raison concerne l’aspect « web marketing », il faut avoir le meilleur rang possible (PR = Page ranking), et le plus rapidement possible dans les pages de résultats. Dans le jargon du SEO, cela s’appelle le SERP (Search Engine Result Page). Comme le montre l’étude de la société Optify, le taux de clics d’un internaute ayant soumis une requête à un moteur de recherche, reste le plus élevé dans la première page de résultats affichés. Le premier lien proposé recueille environ 37% de chance d’être cliqué en premier par l’internaute, le 10ème lien affiché ne recueille à peine que 2.5%.

Comme l’explique le site paradiseo, en prenant pour exemple Google qui recueille près de 90 % des recherches Internet en France :

  • 85 % des internautes ne vont pas au delà de la première page
  • Les 3 premiers résultats de cette première page monopolisent plus de 60% des clics
  • La première position reçoit environ 4 fois plus de clics que la seconde

Par conséquent, il est évident que le référencement est vital pour les sites web de secteurs à forte concurrence. 

 

Le SEO est-il dangereux ?

Cela étant dit, on peut effectivement s’interroger sur le danger induit. En effet le SEO peut donner un sentiment de « trucage » des résultats. A priori ce n’est pas le cas, au-delà de la guerre acharnée que se livrent les sites web marchands pour avoir le meilleur positionnement PR (Page Ranking). Les fournisseurs de moteur de recherche disent veiller au respect de bonnes pratiques des webmasters. Nous l’avons dit plus haut, des chartes existent et les webmasters sont surveillés. Les risques encourus par ceux qui ne les respectent pas, peuvent aller de la dégradation de critères de recherche des liens, au déclassement, filtrage voire à l’isolation du web (sandboxing).

Le SEO devient dangereux, lorsqu’il est utilisé à des fins déloyales, communément appelées « Blackhat SEO ». Dans l’esprit des ingénieurs sécurité, le mot « blackhat » reste associé à pirate. Dans le monde du SEO, ce terme est quelque peu inadapté, il conviendrait mieux de le nommer « SEO non éthique ». Poursuivons donc sur ces pratiques « non éthiques ».

 

Qu’est ce que le « blackhat SEO » ?

Le référencement SEO non éthique consiste donc à influencer les résultats affichés des moteurs de recherches. De nombreuses techniques existent pour permettre de prioriser des liens au détriment d’autres liens, et sont souvent mises en œuvre de façon massive.

Ces techniques sont connues sous le nom de « Spamdexing », il ne s’agit ni plus ni moins que de techniques de référencement abusif. Toutes consistent à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir, lors d’une requête, le meilleur classement possible dans les résultats affichés, de préférence dans la toute première page, car comme nous l’avons dit plus haut (les utilisateurs allant rarement au-delà de la première page).

Citons les plus connues :

  • Balises de « meta keywords » : Historiquement cette technique fut longtemps exploitée, voire surexploitée par les webmasters pour caractériser à l’aide de mots clés leur site web. Les nombreux abus consistant à mettre toute sorte de mots clés dans ces balises, avec notamment des mots clés parfois sans rapport avec le site en lui-même, a été sévèrement condamné par les éditeurs tels que Google qui ne leur octroie désormais, qu’un très faible poids dans les critères d’affichage des résultats.
  • Les contenus cachés : Puisque le contenu est indexé par les moteurs de recherche, les pirates utilisent du contenu caché dans les pages web pour obtenir un meilleur rang dans les pages de résultats. Les techniques communément employées sont :
    • Texte de la même couleur que le fond
    • Mots clés avec des polices de caractères extrêmement petites qui passeront inaperçus lors de l’affichage de la page
    • Contenu caché dans les pages de styles CSS
    • Positionnement d’un texte hors de la zone d’affichage (coordonnées négatives)
    • Utilisation de propriétés particulières des pages (display:none, visibility:hidden, etc.)
    • Etc.
  • La duplication de contenu : Cette pratique permet d’augmenter artificiellement la notoriété d’un site lors de la phase d’indexation. Cependant les moteurs de recherche ont du mal à faire la différence entre le site originel et celui dupliqué. Bien que couramment utilisée, cette technique est aussi bien condamnée par les référenceurs professionnels que par les fournisseurs de moteurs de recherches.
  • Le « pagejacking » : Cette technique consiste à récupérer les balises « méta » d’une page déjà bien classée par les moteurs de recherche pour l’utiliser afin que sa propre page soit également mieux référencée.
  • « backlinks farming » : Littéralement « ferme de liens ». Il s’agit ici d’utiliser à outrance dans des « fermes », des liens dits « backlinks » (lien de retour ou lien entrant) afin de pointer massivement sur le site pour lequel on souhaite améliorer la visibilité. En effet plus le nombre de « backlinks » est important plus la réputation du site sera considérée. Par conséquent mieux le site sera noté.
  • Le « UserAgent cloaking » : Le « cloaking », que l’on pourrait traduire par enveloppage, consiste à présenter un contenu de page web différent selon que le « UserAgent » est celui d’un internaute ou d’un robot d’indexation. L’idée est ici de présenter la page normale pour un internaute, et une page contenant de nombreux mots clés (metadata ou autres) s’il s’agit d’un indexeur.
  • Le « Referer cloaking » : Comme son homologue que nous venons d’aborder, cette technique consiste à présenter un contenu différent en fonction du lien précédemment visité. Cette technique permet donc au pirate de discriminer un visiteur d’un moteur d’indexation, et par conséquent de lui présenter un contenu adapté.
  • Le « IP cloaking » : Cette technique est similaire au « UserAgent cloaking », mais se base sur la discrimination de l’adresse IP plutôt que le « UserAgent ». Dans le cas des pages web malveillantes, elle consiste à se comporter différemment lors d’une indexation par un moteur de recherche, ou s’il s’agit d’une visite d’un internaute.
Nota : Les techniques de « cloaking » sont fermement condamnées par les fournisseurs de moteur de recherche. Cependant ces derniers peinent à lutter contre, car elles sont souvent utilisées par les sites web pour présenter des pages traduites en fonction de la nationalité du visiteur.


D’autres techniques existent, telles que celles exploitant les forums, les blogs, les flux RSS, ou encore les réseaux communautaires ou réseaux sociaux, afin de promouvoir artificiellement des liens. Certains outils sont capables d’automatiser des réponses sur des forums afin de promouvoir tel ou tel site. Bien que souvent facilement démasquables puisque leur connaissance du langage humain laisse à désirer, ces techniques restent cependant des sources de parasitage des forums, blogs et autres, faciles à mettre en œuvre.

Nota : Nous n’avons pas parlé ici du « negative SEO ». Cette technique « blackhat » est une technique du dénigrement qui consiste à détériorer la note d’un site web cible c'est-à-dire de diminuer sa visibilité, en l’associant à son insu à des mots clés dont le contenu est inadapté à sa notoriété (pornographie, drogue, etc.).
 

Blackhat SEO et distribution de malwares

Jusque là, la menace en termes de sécurité n’est pas clairement identifiée. En effet, nous ne venons ici que de considérer la partie inhérente au « blackhat SEO », que l’on pourrait assimiler au « trucage » de résultats des recherches.

Cependant la menace est belle est bien présente. Elle résulte de l’ingéniosité malveillante des pirates « blackhat » qui sont parvenus à exploiter les algorithmes d’indexation et de référencement de Google par exemple pour promouvoir en priorité des liens redirigeant l’internaute vers de réelles menaces informatiques (vers, virus, backdoor, etc.).

Les pirates utilisent donc ces techniques de référencement non éthique (blackhat) pour promouvoir au hasard de requêtes anodines, des liens susceptibles d’infecter les postes des internautes soumettant des requêtes.

Pour augmenter les chances de succès, les pirates arrivent à faire indexer par les moteurs de recherches, des liens malveillants répondant à des requêtes (mots clés) banales. Ces requêtes pièges sont multiples et malheureusement sont souvent associées à des évènements surmédiatisés (tremblement de terre, guerres, attentats, catastrophes nucléaires, décès, etc.) ou des expressions fréquemment utilisées (stock options, etc.).

Début 2010, une attaque blackhat SEO visait de nombreux moteurs, indexant des mots clés faisant référence au drame vécu par les haïtiens suite au tremblement de terre.

En janvier dernier le célèbre fournisseur américain Godaddy était victime d’une attaque blackhat SEO distribuant des malwares via des milliers sites hébergés. L’attaque en elle-même permettait de rediriger les internautes du fournisseur vers des sites hébergeant des malwares, suite à des mots clés faisant référence à des noms de célébrité, des scandales sexuels ou politiques, saisis dans les moteurs de recherche.

Peut-on s’en prémunir ?

Nous aurions aimé pouvoir l’affirmer. Il est malheureusement extrêmement difficile de trouver des parades à la propagation des malwares via le « blackhat SEO ». Les solutions sont très probablement dans les mains des fournisseurs de moteurs de recherche et de leur capacité à détecter tant les mauvaises pratiques du référencement (fameux blackhat SEO), que les liens malveillants.

Récemment Google a d’ailleurs renforcé ses moyens de filtrage par un nouvel algorithme dénommé « Panda », chargé de faire la chasse entre autres aux mauvaises pratiques du SEO et de dégrader le cas échéant les sites réfractaires. Ce nouvel algorithme a d’ailleurs fait l’effet d’une bombe car de nombreux sites connus ont vu leur note dégradée, comme le rappelle l’article suivant. Les pénalités sont maintenant diverses et variées ; la note d’une page web peut désormais dégrader celle du site tout entier, l’abus de panneaux publicitaires peut également dégrader la note du site, ou encore les sites en flash se verront aussi pénalisés du fait des difficultés liés à leur indexation, etc.

Cependant c’est un premier pas. Ces mesures ne sont pas spécifiquement destinées à combattre la distribution de codes malveillants, elles permettent de lutter contre le moyen utilisé pour leur propagation. Elles contribuent à assainir les mauvaises pratiques du SEO. Par conséquent, elles freineront un certain temps, les techniques communément utilisées par les pirates.

Enfin, les bonnes pratiques en matière de sécurité doivent rester dans l’esprit des utilisateurs lors de leur navigation sur Internet. Notamment car ce sont elles qui assurent la meilleure protection ; vigilance lors des navigations sur Internet, lors des téléchargements, application des correctifs de sécurité sur les systèmes et les applications des postes des internautes, etc.

Précedent Précedent Suivant Suivant Imprimer Imprimer