Remise de prix par Alain Sarfati, Président de l'Université Paris-Sud, en présence de François Yvon, directeur de thèse.

Vue 486 fois

01 mars 2020

Une IA lauréate en IA

Publié par Lauriane AUFRANT (1990) | N° 120 - Nouvelles menaces, nouvelles opportunités

Tour d’horizon d’un doctorat sur le passage à l’échelle des technologies duales d’intelligence artificielle, du grand public vers les théâtres d’opération les plus reculés.

Alexa ne parle pas peul. Si ce fait peut paraître anecdotique, il dénote en réalité des enjeux majeurs pour l’appui technique aux opérations extérieures. C’est pour un doctorat autour de ces problématiques qu’une IA recherche a reçu fin 2019 le Prix solennel de thèse de la Chancellerie, catégorie informatique.

En 2019, l’intelligence artificielle, ça marche. Alexa l’a montré : elle fait son travail correctement, parfois même un peu trop. À lire le palmarès des grands acteurs du domaine, on pourrait croire la plupart des défis technologiques résolus, leur dernier enjeu majeur restant celui de l’éthique. Pourtant, ces succès très visibles de l’IA ne sont que le haut de l’iceberg, et les zones d’ombre technologiques restent nombreuses.

Alexa parle en effet 7 langues, Google Home 13, et Siri bat les records avec 21 langues à son actif. Il en existe pourtant 7 000 au monde : où sont-elles dans les palmarès ? Pourquoi aucune enceinte connectée n’est-elle encore passée à l’échelle ?

Des critiques s’élèveront, arguant qu’il est tout à fait normal que Siri n’existe pas en 7 000 langues : après tout ces entreprises ne font que suivre le marché, si la plupart de ces langues ne sont pas couvertes c’est bien parce que les seules personnes qu’elles intéressent encore ont toutes plus de 80 ans, n’est-ce pas ? Qui donc s’émouvrait que Siri ne parle pas chti, ou gallo ? Ces critiques sont pertinentes, au sens où les régions négligées sont souvent de faible intérêt commercial : la Bande Sahélo-Saharienne, par exemple… Qui donc pourrait bien s’y intéresser ?

21 langues sur 7 000, c’est aussi 3.3 milliards d’individus sur 7.5 milliards. Considérable, mais pas suffisant : un humain sur deux ne peut pas demander à Siri de lui afficher une vidéo de chat en smoking… mais surtout un humain sur deux s’exprime sans qu’aucune armée occidentale n’ait un quelconque moyen de comprendre ses paroles.

Alors effectivement, l’intelligence artificielle, ça marche ! Mais pas pour la moitié de l’humanité, et surtout pas pour les zones de conflits armés.

Pourquoi cette disparité ?

Les choix technologiques qui ont fait le succès actuel de l’intelligence artificielle, s’appuyant largement sur des techniques d’apprentissage automatique, sont les premiers responsables de cette forte disparité. Ils reposent en effet sur un principe d’essais-erreurs, qui présuppose dès la conception du système la disponibilité de gros volumes de données, permettant d’indiquer à la machine le type de traitements attendus d’elle : il faut bien lui donner l’exemple !

L’omniprésence actuelle de la donnée ne suffit toutefois pas à garantir l’existence de ces données dites d’apprentissage : soigneusement sélectionnées pour être représentatives du cas d’usage visé, elles doivent également passer par un processus complexe de mise en forme, et souvent d’analyse manuelle, par des opérateurs humains. Par « gros volume », on entend parfois 10 000 ou 100 000 données, faute de mieux, mais aujourd’hui l’état de l’art s’oriente plutôt vers le million, voire le milliard, vu l’impact direct de ce volume sur les performances des systèmes développés. En intelligence artificielle, le nerf de la guerre c’est d’abord la donnée.

Or le développement de telles ressources, cher et chronophage, n’est envisageable que dans une poignée de régions du monde, aux conditions économiques et politiques propices, et donc pour une poignée de langues. Dans tous les autres cas, on parle de langues « peu dotées ».

Quel impact sur les armées ?

Hier encore les soldats français étaient en Afghanistan (où l’on parle majoritairement dari et pashto), en Libye (arabe libyen, tamasheq), puis Serval les a emmenés au Mali (avec le bambara, le soninké, le peul et près de 80 autres langues locales), Sangaris en Centrafrique (culminant à 100 langues !)… Est-il réaliste d’imaginer la Défense française investir temps et argent dans la production de ressources d’apprentissage pour toutes ces langues tour à tour ? Est-ce faisable, vu les délais de collecte, au risque que les ressources ne soient livrées qu’au terme de l’OPEX ? Trouverons-nous seulement un locuteur de chacune de ces langues, favorable aux Français et prêt à s’investir pour nous dans cette tâche ? Et pourtant, nos soldats sur le terrain ne peuvent se passer de l’outillage linguistique le plus basique, leur permettant par exemple de capter le renseignement essentiel aux opérations, mais aussi et surtout de communiquer avec leur entourage direct sur théâtre, les interprètes étant une ressource aussi rare que précieuse. La nécessité de passage à l’échelle des technologies IA n’est pas propre au monde militaire, des configurations similaires pouvant se présenter en contexte humanitaire par exemple, mais elle se rappelle vivement à nos armées à chaque départ d’unités en zone « peu dotée », sans aucune connaissance ni appui technique pour les aider à contrer la barrière linguistique.

C’est à tous ces oubliés de l’IA que j’ai consacré ma thèse, cherchant un plan B pour parer techniquement à ces situations d’apparence inextricable, et parfois même un plan C.

La plan B : l’approche par transfert

Ayant rapidement identifié ce problème de couverture, les chercheurs du domaine ont élaboré une stratégie prometteuse, le transfert cross-lingue. Son principe est le suivant : comme l’espagnol ressemble beaucoup à du français avec des o à la fin de chaque mot, si l’on n’a des données qu’en français, il suffit de leur ajouter un o à la fin de chaque mot et de les faire passer pour des données espagnoles, les algorithmes n’y verront que du feu et on peut créer une Alexa espagnole ! L’idée est simple, intuitive, évidemment elle ne marche pas.

Elle marche quand même un peu, car en pratique beaucoup de langues suivent les mêmes schémas de fonctionnement : sujet-verbe-complément, des adjectifs pour qualifier les noms, quelques déterminants… Extrapoler la connaissance d’une langue à partir des ressources d’une autre langue proche est donc une approximation certes grossière et source de nombreuses erreurs de traitement, mais reste néanmoins préférable à l’absence totale de système IA dans une langue donnée.

Alors pourquoi un plan C ?

En pratique, la communauté scientifique n’a toutefois exploré ces techniques que dans des configurations de laboratoire, tellement idéalisées en termes de similarité de langues et de ressources disponibles qu’elles ne se rencontrent concrètement dans aucun scénario opérationnel réaliste ; et le plan B reste donc inapplicable pour la Défense.

Tous ces travaux partent néanmoins d’un postulat initial fort, suivant lequel la langue d’intérêt est entièrement dépourvue de ressources. C’est pourtant rarement le cas : à défaut de vraies ressources, par notre expérience ou nos recherches nous avons toujours accès à quelques bribes d’informations sur cette langue, le sens d’un mot, ou deux, quelques propriétés grammaticales, parfois une dizaine de phrases analysées il y a 30 ans par un linguiste. De telles bribes sont généralement jugées inexploitables, mais est-ce vraiment le cas ? Ici commence alors le plan C : combiner bribes et transfert, lorsque même le transfert a échoué.

C’est donc la mise au point de ce plan C qui a servi de fil rouge à cette thèse, intitulée « Apprentissage d'analyseurs syntaxiques pour les langues peu dotées : amélioration du transfert cross-lingue grâce à des connaissances monolingues », que j’ai menée au sein d’un laboratoire CNRS du plateau de Saclay, le LIMSI, spécialiste reconnu en traitement du langage.

Plus complexe qu’elle n’y paraît, car sa mise en œuvre a nécessité une refonte en profondeur des techniques d’analyse et de transfert, cette volonté d’exploiter l’inexploitable m’a alors emmenée sur différents terrains scientifiques : du formel à l’expérimental, du tableau blanc aux clusters de calcul massif. Après trois ans d’efforts, des dizaines de milliers d’expériences et un temps certain de développement, une réponse m’attendait : oui, combiner bribes et transfert c’est possible, et même bénéfique. En témoignent le ouïghour, le kurmanji, le bouriate et les 70 autres langues sur lesquelles j’ai validé expérimentalement ma méthode. Prochaine étape : la réappliquer sans filet, sur une langue trop peu dotée pour bénéficier d’une validation au cas par cas. Alors Alexa, feu vert pour le peul ?

Remise de prix à la Sorbonne le 3 décembre 2019 dans le grand amphi de la Sorbonne

Le prix de la chancellerie récompense chaque année une cinquantaine de thèses effectuée dans la région académique d’Ile de France. Une thèse sur la compréhension des langues peu dotées s’inscrit particulièrement dans la devise de la Sorbonne : « hic et ubique terrarum » !

Félicitations à Lauriane pour ce premier prix de la catégorie mécanique, électronique, informatique et technologie.

Lauriane Aufrant, IA

Après l’X, Télécom et un doctorat en intelligence artificielle à l’Université Paris-Saclay, Lauriane Aufrant a rejoint DGA Maîtrise de l’Information en tant que chargée d’expertise en traitement du langage. Elle exerce aujourd’hui son expertise au sein du nouveau département Datascience et Intelligence Artificielle de DGA MI.