Retour au numéro
Un "web crawler" ou "web spider"
19 avril 2015

CE QUE VEUT L’INTERNAUTE
UTILISATIONS ET CHALLENGES DE L’INTELLIGENCE ARTIFICIELLE DANS L’INTERNET MODERNE

Le web moderne a vu les applications à la robotique et à l’intelligence artificielle exploser. soutenus par deux domaines d’application que sont la publicité … et le crime, les robots ont envahi la toile, récoltant et organisant des quantités faramineuses d’informations, de plus en plus à l’insu des internautes.


Ceux d’entre nous qui ont l’honneur d’administrer un serveur web quel qu’il soit (site web d’entreprise, serveur mail, administration à distance, etc.) ont pu constater qu’une partie non négligeable du trafic qu’ils reçoivent ne correspond pas à de l’activité humaine, mais de robots, appelés web crawler ou web spider. Quoique la mesure soit difficile à réaliser précisément, il est bien clair que la barre des 50 % du trafic mondial a été dépassée, avec environ la moitié de celui-ci constitué de robots malveillants. 

Naturellement, le coût induit par une telle quantité de trafic et le développement de l’algorithmique associée n’est pas négligeable, et nécessite donc un retour sur investissement, et à en croire les résultats financiers des moteurs de recherche (Google en premier), ou l’évolution du chiffre d’affaire de la cybercriminalité, on peut estimer que le défi a été relevé avec succès. Car il ne faut pas se méprendre sur les objectifs de cette activité, ils sont naturellement mercantiles : le « business model » est d’attirer le produit (nous bien sûr) vers le client, qui va du site de e-commerce pour les plus légales aux ventes en ligne de produits illicites (armes, drogues, médicaments) et à la recherche de serveurs vulnérables aux attaques pour celles qui le sont un peu moins. L’activité de ces robots crawler n’est donc que le commencement d’un long processus totalement automatisé de valorisation de l’information visant à comprendre ce dont l’utilisateur pourrait avoir besoin et serait disposé à acheter (ou à se faire escroquer).

Récolter …

L’idée simpliste d’une navigation aléatoire sur les sites en suivant les liens se complique fortement avec la structure du web actuel. Des estimations réalisées en 2001 par des chercheurs de l’université de Berkeley indiquaient déjà que le deep web (la partie du web non atteinte par les robots d’indexation mais accessible publiquement) était 550 fois plus grande que la partie visible indexée. La multiplication des technologies comme les pages web dynamiques (générées à la volée lors de la visite des sites), l’utilisation massive de javascript, qui ne sont en général pas exécutées par les robots et d’autres technologies anti-robot comme les captcha rendent le travail de développement des algorithmes de parcours de plus en plus complexes, et l’on peut avoir la certitude que cette proportion a encore grandi.

Les captchas  

Un captcha ou « completely Automated Public Turing test to tell Computers and Humans Apart » se présente en général comme une image automatiquement générée représentant un texte qu’un humain doit réécrire dans un formulaire, tâche sensée être difficile pour un robot car nécessitant des techniques avancées de traitement de l’image. si des outils de lecture de captchas existent et sont en pleine expansion, la méthode la plus utilisée pour les contourner est la soumission croisée sur un site complice (des sites à haute visibilité comme les sites pornographiques par exemple), permettant aux robots d’obtenir la réponse sans effort d’ingénierie. Notez que cette technique est aussi utilisée par les grands du web (Google, microsoft) pour déchiffrer les passages délicats lors des numérisations de documents papier.

 

 

Un autre danger qui guette cette récolte est la manipulation de l’information : puisque les robots d’indexation se présentent en général comme tels lors de leur visite (exemple du googlebot ou du moteur bing de Microsoft) l’administrateur d’un site (ou un hacker qui en a pris le contrôle) peut facilement en modifier le contenu et servir au robot un contenu totalement différent. Il pourra ainsi se servir d’un site à haute visibilité pour faire remonter son référencement, et son nombre de visites. La requête google suivante : « viagra site:gouv.fr » finira de vous convaincre que ça n’arrive pas qu’aux autres !

Du côté des crawlers malveillants, pas question de faire preuve d’autant de naïveté, mais plutôt de rechercher automatiquement ce qui pourrait servir leur vils desseins : recherche de services vulnérables sur internet (voir le moteur Shodan, le « google des hackers » dont l’objectif est le référencement de l’ensemble des machines connectées et des services ouverts), de sites web présentant des failles bien connues (à ce titre, le nombre de sites internet défigurés lors de l’opération #OpFrance faisant suite aux attentats du 7 Janvier 2015 laisse présumer que le processus d’identification des sites et des attaques était fortement automatisé), ou des adresses mails valides, futures victimes des spambots.

… servir

Le deuxième défi dans ce domaine est bien sûr l’organisation de la donnée récoltée pour servir systématiquement la plus pertinente à l’utilisateur. Si dans le contexte des activités malveillantes c’est relativement aisé (tout est pertinent pour le criminel du moment qu’il peut gagner de l’argent avec), pour les moteurs de recherche le sujet est beaucoup plus complexe et certainement celui qui fait la différence : en effet le chiffre d’affaires d’un moteur de recherche est directement lié au nombre de requêtes réalisées, qui sont autant de chances de vendre de la publicité (voir partie suivante). Le cycle vertueux traditionnel de la satisfaction client se met donc en place malgré la gratuité : le moteur de recherche doit fournir le meilleur contenu possible pour fidéliser ses utilisateurs, et pouvoir leur servir plus de publicité.
Dans ce domaine, le grand défi est de ne pas se faire manipuler par les fournisseurs de contenu, qui rechercheront de leur côté à s’assurer du meilleur référencement possible. Ce domaine est même devenu une industrie plus connue sous le nom de Search Engine Optimization (SEO). Parmi les techniques utilisées, l’usage massif de buzzwords dans des sites de faible qualité éditoriale, ou l’abus du netlinking (référencement abusif par des sites externes complices) a été largement combattu par les moteurs de recherche. Les objectifs annoncés par Google des algorithmes Panda et Penguin décrits sur leur site et dont l’objectif est littéralement d’exclure les résultats de mauvaise qualité sont révélateurs de la complexité à laquelle ont eu à faire face les ingénieurs de Mountain View. Pour cela, l’allié le plus naturel est l’utilisateur, qui reviendra systématiquement d’un mauvais lien pour passer au suivant, ce que n’aura pas manqué de noter votre moteur de recherche préféré (et c’est là que le traçage de l’utilisateur commence …).

… et encaisser 

Jusque dans les années 2010, le business model était simple : fournir en plus des résultats d’analyse, bien placés dans la page de résultat, les liens de ses clients, et se faire rémunérer au clic. Ces résultats « artificiels », moins pertinents risquant de faire perdre l’intérêt des résultats et d’agacer l’utilisateur, une tarification à la pertinence a été adoptée : plus le lien commercial est pertinent, moins il est cher à intégrer, et plus vous avez de chances que l’internaute clique dessus.

Bien sûr, pour que ces processus automatiques de fixation des prix (n’oublions pas qu’ils sont déterminés en quelques millisecondes) soient efficaces, il faut que les probabilités de réussite (que l’utilisateur clique) soient bien mesurées, donc il faut beaucoup d’utilisateurs.

Les années 2010 ont vu le développement du real time bidding ou RTB avec cette idée simple : offrir les encarts publicitaires proposés à chaque visite d’un internaute sur un site à l’annonceur qui sera prêt à payer le plus pour lui exposer sa bannière de publicité.

 

Le real time Bidding 

Le rtB est un mécanisme consistant à mettre aux enchères un encart publicitaire au moment même où l’utilisateur consulte le site qui le vend. concrètement lors d’une visite sur un site web, c’est l’utilisateur qui appelle (sans s’en apercevoir) le serveur publicitaire ou ad server, en lui fournissant l’ensemble de ses cookies, révélateurs de ses connexions passées et donc de ses centres d’intérêt. ce serveur met donc aux enchères vis-à-vis des annonceurs l’encart, qui se verra emporter alors par le plus offrant, plus précisément à la valeur du deuxième plus offrant + 1 centime. ce processus complet ne devant pas gêner l’internaute, il se réalisera en quelques millisecondes, sans aucune intervention humaine.

Pour cela il n’est plus suffisant de présenter le site, mais il faut aussi amener un maximum d’informations sur l’utilisateur à qui on va présenter la publicité. On peut compter sur les mécanismes de traçage disponibles et notamment le mécanisme de cookie des navigateurs : leur mise en place est réalisée par d’autres robots que l’on trouve sur internet appelés Data Management Platform (DMP), que nous rencontrons régulièrement pendant notre navigation et qui y incluent des comportements, des indications de lieu, des centres d’intérêt, etc … avec la désagréable impression que l’ensemble du net épie notre vie privée quand nous naviguons. Reste à espérer (naïvement ?) que cette immense quantité de données collectées ne sert réellement qu’à nous vendre de la publicité … 

 

  
Nicolas Guillermin
Nicolas Guillermin (X - Telecom Paris) intègre en 2006 le CELAR puis DGA. MI dans le domaine de la sécurité des systèmes d’information. Il est aujourd’hui responsable technique du centre d’analyse pour la lutte informatique défensive (CALID1).
 

Auteur

Articles liés par des tags

Commentaires

Aucun commentaire

Vous devez être connecté pour laisser un commentaire. Connectez-vous.