L’INTELLIGENCE ARTIFICIELLE EST-ELLE EN PASSE DE RÉVOLUTIONNER LA DÉTECTION DES CYBER-ATTAQUES ?

Publié par Pierre Ansel ingénieur en chef des Mines | N° 116 - Le numérique

Incontestablement, l’Intelligence Artificielle (IA) est devenue en quelques années l’axe d’innovation majeur des grands acteurs de l’Internet et des industriels de défense. En matière d’IA, on distingue trois grandes catégories : l’IA symbolique s’appuyant sur des systèmes à base de règles capables de conduire des raisonnements, l’IA statistique avec le Machine Learning (ML) et enfin l’IA connexionniste à base de réseaux de neurones. Si les algorithmes de l’IA n’ont pas fondamentalement changé en l’espace de plusieurs décennies, l’évolution significative des puissances de calcul et la prolifération des sources de données permettent désormais d’envisager de nombreuses applications du ML dans le domaine de la défense, en particulier en cyber...

En quelques décennies, le cyberespace est devenu un espace de combat à part entière où les grandes puissances sont confrontées non seulement à des cybercriminels motivés par des gains financiers mais également à des acteurs étatiques impliqués dans une guerre économique et informationnelle permanente.

Si l’IA peut être envisagée dans les domaines offensif et défensif, c’est principalement dans le domaine de la détection des attaques et de la Threat Intelligence qu’elle peut jouer un rôle clé.

« DÉTECTER... DES REQUÊTES HTTP SUR UN DOMAINE INHABITUEL... »

Les apports de l’IA en matière de détection des attaques On peut envisager plusieurs champs d’application des algorithmes de l’IA.

D’abord dans le domaine des sondes de détection d’intrusion

(IDS) : de nouveaux types de sondes ou de modules d’analyse de journaux viennent désormais compléter les traditionnels systèmes à base de signatures et de règles de corrélation. Ils permettent d’une certaine façon de s’affranchir des difficultés liées à la gestion des signatures, principales causes d’échec des projets de supervision de la sécurité. Lorsqu’il s’agit de détecter des changements de comportements dans des flux particulièrement prédictibles comme pour les systèmes industriels, l’IA s’avère particulièrement efficace.

Ensuite, l’IA peut être d’une aide précieuse dans les Security Operation Center (SOC) pour aider les analystes à identifier les faux positifs. On pourrait être tenté de penser qu’il suffit d’améliorer les règles de détection traditionnelles pour les rendre plus sélectives mais généralement, cette démarche conduit à augmenter le taux de faux négatifs. Si par le passé, on s’est concentré sur la recherche du meilleur compromis entre faux positifs (alertes remontées à tort) et faux négatifs (attaques avérées non détectées), on peut désormais envisager d’abaisser les seuils de détection et recourir à l’IA pour « filtrer » les faux

positifs remontés par les systèmes traditionnels.

L’IA peut également s’appliquer astucieusement dans le domaine de l’analyse de la menace (Cyber Threat Intelligence ou CTI). Cette discipline permet de constituer et d’exploiter une base de connaissances des modes opératoires d’attaque autour :

Des outils d’attaque ; • Des infrastructures permettant

de délivrer les charges malveillantes ou de contrôler les codes malveillants déployés ;

Des catégories de victimes ciblées et leur secteur industriel ;
De l’identité des attaquants.

De l’analyse de ces modes opératoires sont extraites des signatures destinées aux systèmes de détection traditionnels. Aujourd’hui, les activités de la CTI sont principalement réalisées sur un mode réactif. Les analystes prennent en compte les informations issues d’attaques observées pour en déduire des indicateurs de compromission pertinents. L’IA appliquée à la CTI peut permettre de passer d’un mode réactif à un mode proactif afin de détecter de manière précoce le déploiement progressif des infrastructures d’attaque. Cela passe par exemple par l’analyse automatisée de flux de données liés aux infrastructures de l’Internet (domaines DNS récemment enregistrés...).

L’IA et la détection des attaques : un mariage semé d’embûches Dans le domaine de la détection des attaques, la problématique consiste souvent à détecter des anomalies dans des données d’entrée de différentes natures comme des journaux d’équipements réseau ou des alertes produites par des équipements de sécurité. A de rares exceptions près, les anomalies recherchées correspondent à des phénomènes peu fréquents : requêtes HTTP sur un domaine inhabituel, requêtes DNS sur des noms de domaines à forte entropie, présence d’une bibliothèque système sur un unique ordinateur d’un parc...

La détection de ce type d’anomalies peut traditionnellement se faire à l’aide de techniques de ML supervisées ou non supervisées.

En pratique, la déclinaison du ML à la détection des cyber-attaques se heurte à plusieurs difficultés. D’abord, les algorithmes supervisés sont plus difficilement applicables car ils nécessitent un entraînement sur des données labellisées. Or si les données ne manquent pas, notamment dans les SOC, leur labellisation est déjà plus difficile à obtenir. On peut imaginer de s’appuyer sur les mécanismes de détection traditionnels à base de signatures ou de règles de corrélation pour obtenir une labellisation mais l’algorithme supervisé apprendra souvent des phénomènes déjà connus et détectables par d’autres moyens. Pour ce qui est des attaques ciblées plus complexes, les jeux de données sont encore trop peu nombreux pour alimenter efficacement les algorithmes supervisés. Quant aux algorithmes de détection d’anomalies non supervisés, les phénomènes peu fréquents qu’ils permettent de mettre en évidence sont souvent des exceptions légitimes liées au cycle de vie d’un SI. Identifier les attaques parmi les nombreux phénomènes peu fréquents mis en exergue n’est donc pas une mince affaire. Et pour couronner le tout, le ML est souvent impuissant pour fournir à un analyste une explication rationnelle à une alerte remontée.

Enfin, la conception de modules performants de détection à base d’IA nécessite de constituer un terreau fertile rassemblant 3 éléments essentiels :

Les data scientists, capables d’identifier les algorithmes les plus efficaces pour une problématique donnée ;  
Les experts en détection d’intrusion et en Threat Intelligence dont la connaissance des modes opératoires d’attaque est incontournable ;

Des données opérationnelles représentatives du fonctionnement normal d’un SI et des attaques qu’il a déjà subies.  Or la collaboration entre data scientists et experts en sécurité nécessite une ouverture d’esprit toute particulière pour que les uns comprennent que des jeux de données parfaitement labellisées n’existent  pas et les autres que les algorithmes de ML ne s’appliquent pas pas tels quels sur leurs données.

Retour d’expérience de l’application de l’IA à la cyberdétection Au rang des enseignements les plus significatifs, figure incontestablement l’importance de ce que l’on appelle communément le Feature Engineering. Ce dernier consiste à retravailler les variables qui caractérisent chaque donnée d’entrée pour en décliner des variables porteuses d’un signal fort. Il s’agit généralement de :

transformer les variables (calcul d’une entropie...) ;
ajouter des variables dérivées issues de bases d’informations contextuelles (localisation géographique...).

Un très bon Feature Engineering repose généralement sur une parfaite collaboration entre data scientists et experts en cybersécurité.

Par ailleurs, les expérimentations montrent que l’IA permet au mieux d’améliorer la qualité du travail des analystes mais en aucun cas de les remplacer pour pallier le déficit actuel d’experts en cybersécurité. Enfin, il ne faut pas oublier que le ML n’est qu’un sous-domaine de l’IA dans lequel les machines produisent un résultat qui n’est ni prouvable ni explicable. Ainsi, combiner ce type d’approche avec des systèmes à base d’IA symbolique est probablement une piste prometteuse à explorer.

Auteur

Pierre Ansel ingénieur en chef des Mines

Article précédent Article suivant

Retour au numéro

Articles liés par des tags

Lire la suite

- PERSPECTIVES EN MODÉLISATION NUMÉRIQUE
PERSPECTIVES EN MODÉLISATION NUMÉRIQUE La modélisation numérique « physique » est au cœur de la conception de nos systèmes critiques, et...
01 octobre 2018
Lire la suite >
Lire la suite

- LA TRANSFORMATION DIGITALE D’UN GRAND GROUPE INDUSTRIEL, L’EXEMPLE DE TOTAL
LA TRANSFORMATION DIGITALE D’UN GRAND GROUPE INDUSTRIEL,... Quatrième compagnie pétrolière et gazière internationale, Total est aussi un acteur majeur des...
01 octobre 2018
Lire la suite >
Lire la suite

- LE DIGITAL, UN DÉPLOIEMENT DEJA FRUCTUEUX
LE DIGITAL, UN DÉPLOIEMENT DEJA FRUCTUEUX Airbus positionne la donnée au coeur de son programme de transformation digitale. Le groupe...
01 octobre 2018
Lire la suite >
Lire la suite

- EDF ÉCRIT SON AVENIR EN NUMÉRIQUE
OU COMMENT UN GRAND GROUPE MATÉRIALISE SA TRANSFORMATION
EDF ÉCRIT SON AVENIR EN NUMÉRIQUE
OU COMMENT UN GRAND... Le domaine de l’informatique est particulièrement friand de concepts nouveaux (agilité, cloud,...
01 octobre 2018
Lire la suite >

Lire la suite

- LE CLOUD AU SERVICE DE LA TRANSFORMATION NUMÉRIQUE
LE CLOUD AU SERVICE DE LA TRANSFORMATION NUMÉRIQUE Le cloud est d’adopté par de plus en plus d’entreprises comme une solution simple pour ne plus...
01 octobre 2018
Lire la suite >

Lire la suite

- GÉNOMIQUE ET BIG DATA
UNE RÉVOLUTION DE LA MÉDECINE À NOTRE PORTE
GÉNOMIQUE ET BIG DATA
UNE RÉVOLUTION DE LA MÉDECINE À... Pierre Tambourin, X66, chercheur au CNRS est l’un des fondateurs du pôle français de génomique. Il...
01 octobre 2018
Lire la suite >

Lire la suite

- ECONOMIE NOUVELLE... ET GRATUITE
QUELS SONT LES RESSORTS QUI PERMETTENT D’OFFRIR LES SERVICES DONT NOUS PROFITONS TOUS ?
ECONOMIE NOUVELLE... ET GRATUITE
QUELS SONT LES RESSORTS... Le digital n’a jamais été aussi présent et pesant que depuis 2-3 ans. Si le « deal » semblait clair...
01 octobre 2018
Lire la suite >

Commentaires

Aucun commentaire

Vous devez être connecté pour laisser un commentaire. Connectez-vous.

Connexion

Auteur

Articles liés par des tags