L’avenir du machine learning dans le domaine de la cybersécurité

  • facebook
  • linkedin
L’avenir du machine learning dans le domaine de la cybersécurité

L’introduction des algorithmes de machine learning dans la cybersécurité est encore à un stade précoce. L’objectif de l’apprentissage automatique est de rendre la sécurité plus efficace et évolutive afin d’optimiser le travail et de prévenir les attaques informatiques. Différentes techniques de machine learning, comme le machine learning non supervisé ou supervisé, sont utilisées par les spécialistes de la cybersécurité. Nous retraçons ici l’essentiel à savoir sur comment fonctionne le machine learning et son avenir dans le domaine de la cybersécurité.

Comprendre la cybersécurité

La cybersécurité est un ensemble de pratiques, de technologies et de processus visant à protéger les systèmes informatiques, les réseaux et les ensembles de données contre les menaces numériques : accès non autorisés (piratage), virus, logiciels malveillants, l’hameçonnage (phishing), les rançongiciels (ransomwares), etc. L’importance de la cybersécurité a nettement augmenté ces dernières années en suivant l’émergence d’énormes volumes de données collectées et créées sur Internet. Ces quantités de données sont générées par nos activités quotidiennes qui sont de plus en plus liées au cloud computing (services et produits en ligne), mais aussi aux objets connectés (IoT).

Cybercriminalité : des menaces d’État

Une grande majorité des pays considère la cybermenace comme une menace sérieuse pour la sécurité nationale et internationale. Le 12 mai 2021, Joe Biden signait un décret d’urgence pour la création d’un comité d’examen des cyberattaques et la mise en place de nouvelles normes de sécurité logicielles pour les agences gouvernementales (Institut Montaigne). En France, la cybersécurité est considérée aussi comme une priorité nationale et le pays a mis en place l’ANSSI (Agence nationale de la sécurité des systèmes d’information) pour accompagner les entreprises et les particuliers dans la cyberdéfense.

Cybermenaces : de graves conséquences

Les menaces numériques peuvent avoir de graves conséquences sur les entreprises et les particuliers, allant de la perte de données sensibles à l’interruption des opérations commerciales et des services en ligne. IBM estime un coût moyen mondial de violation de données de 4,35 millions de dollars par cyberattaque.

La cybersécurité est donc essentielle pour protéger la confidentialité, l’intégrité et la disponibilité des informations stockées et échangées en ligne.

L’IA et la cybersécurité

L’intelligence artificielle (IA) est graduellement mise à profit aussi bien du côté des cyberattaquants que des cyberdéfenseurs. L’OTAN considère d’ailleurs l’IA comme une menace pour la cybersécurité. Mais cet outil à base de réseaux de neurones artificiels permet aussi de rendre plus efficace la cyberdéfense. C’est ce que nous allons voir avec l’introduction des techniques de machine learning dans la cybersécurité.

Machine learning, deep learning et IA : quelles différences ?

Largement exploitée dans la littérature de science-fiction, l’intelligence artificielle est une machine capable de simuler le schéma de pensée d’un être humain en utilisant un réseau de neurones artificiels. Actuellement, une machine intelligente est encore très loin de reproduire l’intelligence humaine. Mais, elles permettent tout de même des prouesses jusqu’alors inégalées par des programmes traditionnels, comme l’exploitation des données.

Le réseau de neurones artificiels des IA

Le réseau de neurones artificiels est un concept inspiré de la structure et du fonctionnement du cerveau humain. Les réseaux de neurones artificiels s’appuient sur l’apprentissage automatique pour remplacer l’humain dans certaines tâches. Ils sont utilisés dans de nombreuses applications d’IA telles que la reconnaissance vocale, la reconnaissance faciale, la traduction automatique, l’analyse de données et bien d’autres encore.

Le machine learning

L’apprentissage automatique, appelé machine learning en anglais, est une forme d’IA. Cette sous-discipline de l’intelligence artificielle permet à un système de s’améliorer automatiquement en apprenant à partir de données et conclusions antérieures. Dans The Role of Machine Learning in Cybersecurity, G. Apruzzese et al. (2023) indiquent que « le but de ML est de développer des machines qui apprennent automatiquement à prendre des décisions ». Il utilise des algorithmes d’apprentissage pour analyser les données (phase d’entraînement) et générer des modèles qui permettent aux ordinateurs d’être autonomes avec un pouvoir décisionnel sans être explicitement programmés pour cela. Les trois types de machine learning les plus répandus sont l’apprentissage supervisé, l’apprentissage non supervisé, avec en entre-deux l’apprentissage semi-supervisé, et l’apprentissage par renforcement.

Le deep learning

Dérivé du machine learning, l’apprentissage profond ou deep learning repose sur l’apprentissage en profondeur de représentations de données. Il nécessite dès lors une grande quantité de données pour ajuster ses réponses. Par exemple, pour la reconnaissance d’un chat, un assortiment complet d’images de chats est utilisé pour l’apprentissage complet (profond et étendu). Ainsi, la machine sera capable de reconnaître l’animal sous n’importe quel angle.

Pourquoi le machine learning est-il vital pour la cybersécurité ?

La sécurité consiste à mesurer et à déjouer les menaces. La cybersécurité en fait de même et tout y est question de gestion et d’analyse avancée des données. À ce sujet, pour les entreprises, les mégadonnées sont devenues le nouvel or noir digital. Les pirates informatiques voient cela du même œil avide, et en font leur cible privilégiée.

Accroissement exponentiel du big data

Il n’y a pas si longtemps, les données disponibles sur Internet étaient encore peu nombreuses. Les entreprises pouvaient alors se contenter d’antivirus traditionnels pour la détection de logiciels malveillants en se basant sur les signatures, les règles de pare-feu statiques et les listes de contrôle d’accès. Puis, le monde a continué à évoluer vers plus de numérique. Selon Statista, le volume de données numériques créées ou répliquées par an dans le monde était, en 2010, de 2 Zo (1 zettaoctet = 1 trillion de téraoctets), 64 Zo en 2020 et une prévision de 181 Zo a été faite pour 2025.

(Source : Statista)

Vers l’automatisation de l’analyse des données

Cette explosion du big data est essentiellement due au cloud computing et à l’IoT, mais aussi aux mœurs qui évoluent : plus de télétravail, plus de réunions à distance, plus de services en ligne (SaaS, PaaS, IaaS), etc. Le volume de données est devenu si important que les analystes de données seuls ne peuvent y faire face. En proposant d’automatiser des tâches, comme les analyses avancées de données et la détection des menaces, le machine learning est devenu d’une importance capitale pour la cybersécurité.

La place du ML dans la cybersécurité

Le big data est devenu une manne attisant toutes les convoitises, surtout celles des hackers. Les cyberattaques se multiplient et se complexifient, à tel point que l’analyse des données massives dans des temps très courts par des personnes est devenu impossible. Cela réclamerait un trop lourd investissement financier et humain. En revanche, l’IA et le machine learning ont cette capacité à analyser des masses de données, en temps réel, sans souffrir de la faiblesse des erreurs humaines. Ces dernières se résument le plus souvent à des erreurs de jugement principalement dues à la fatigue et à la baisse de la concentration.

Pour faire court, utiliser le machine learning dans la cybersécurité permet de :

  • réduire l’erreur humaine ;
  • soulager les équipes de sécurité ;
  • proposer des conseils opportuns sur les derniers problèmes détectés ;
  • automatiser des tâches répétitives ;
  • d’éviter la fatigue décisionnelle de l’humain due à un flux élevé d’alertes ;
  • réduire le temps de réponse en cas de menace grâce à sa surveillance continue et en temps réel ;
  • identifier et anticiper les nouvelles menaces (analyse prédictive).

Comment le machine learning s’intègre-t-il dans la cybersécurité ?

« Le machine learning excelle dans les tâches pénibles telles que l’identification et l’adaptation des schémas de données » (Kaspersky) et il s’intègre dans la cybersécurité à différents niveaux :

  • identification et classification des logiciels malveillants par analyse statique et dynamique ;
  • apprentissage automatique contradictoire pour contrer les cyberattaques conçues pour tromper le modèle ;
  • analyse du trafic réseau et détection d’une anomalie en temps réel ;
  • tests d’intrusion réseau et gestion des vulnérabilités ;
  • analyse et prédiction du comportement des utilisateurs et des entités :
  • détection précoce des tentatives de phishing.

Également, comme le soulignent G. Apruzzes et al. (2023) dans leur article, le machine learning peut remplir quatre autres tâches importantes : la gestion des alertes, l’analyse des données brutes, l’évaluation de l’exposition au risque et le renseignement sur les cybermenaces.

Les défis du machine learning dans la cybersécurité

Intégrer le machine learning dans la cybersécurité n’est cependant pas si simple. Un « conflit sous-jacent entre les caractéristiques intrinsèques du domaine de la cybersécurité et les hypothèses fondamentales du ML » (G. Apruzzes et al., 2023) entraîne des complications et des défis à relever.

3 problèmes généraux du ML dans la sécurité informatique

Les méthodes d’apprentissage automatique suivent le principe de variables aléatoires indépendantes et identiquement distribuées. Cela signifie que les données d’entrée servant d’échantillons d’apprentissage machine correspondent à des données futures que le modèle de machine learning analysera. Mais, on doit faire face à trois caractéristiques du domaine de la cybersécurité :

  • La dérive conceptuelle. Les systèmes modernes évoluent sans arrêt et ces mutations empêchent une application fiable et à long terme du machine learning, car les données d’apprentissage sont rapidement obsolètes. La mise à jour constante du système de sécurité à base de ML est le seul remède.
  • Le cadre contradictoire. Compte tenu du mode d’apprentissage du système d’intelligence artificielle actuel, il suffit aux hackers d’appliquer de minuscules modifications à certaines données pour compromettre les modèles prédictifs du ML. La meilleure défense reste une approche proactive anticipant l’adversaire (tenter de prédire les comportements futurs).
  • La confidentialité. Pour réussir une défense numérique, les analyses de données sont obligatoires. Or, l’utilisation du chiffrement est croissante, notamment via le trafic chiffré proposé par le protocole sécurisé du HTTPS. De plus, les réglementations des données, comme le RGPD en Europe, rendent difficile l’identification des données pouvant être utilisées à long terme.

4 défis pour révolutionner le ML dans la cybersécurité

Toute amélioration est appréciable, surtout lorsqu’il s’agit de sécurité de l’information. Néanmoins, rapprocher la recherche et la pratique sur la cybersécurité et le machine learning est encore mieux. G. Apruzzes et al. invitent les quatre acteurs majeurs (organismes de réglementation, dirigeants d’entreprise, ingénieurs et communauté de recherche) à une contribution conjointe pour améliorer considérablement la cybersécurité moderne. Voici un résumé de leur plan d’action.

Création de certifications

La fiabilité du machine learning est un point crucial, et ceci est d’autant plus vrai pour la cybersécurité. Des procédures permettant de certifier la performance et la robustesse des systèmes de cyberdéfense doivent être élaborées et appliquées par les organismes de réglementation. Or, aujourd’hui, il existe un manque de protocoles d’évaluation standardisés. Les évaluations actuelles ont tendance à gonfler les résultats pour favoriser une solution plutôt qu’une autre. Une attestation de performances et un certificat de robustesse basés sur des protocoles d’évaluations normalisés favoriseraient des comparaisons justes et équitables.

Disponibilité des données

Les acteurs industriels et les autorités législatives devraient rendre plus accessibles certains ensembles de données qui permettront de définir des modèles ML viables pour la sécurité de l’information. Actuellement, les données sont rapidement obsolètes et peuvent parfois être inexactes. Il est donc nécessaire de mettre en place une solution de partage de données étiquetées accompagnée d’un règlement sur les données exploitables.

Recherches sur la cybersécurité viables

Cette nouvelle tendance de lier machine learning et cybersécurité est une source d’inspiration pour la recherche. Mais attention au revers, car la profusion d’articles sur le sujet peut soulever plus de questions que fournir des réponses. Il sera important donc de :

  • produire une recherche aux résultats pragmatiques qui apportera toujours de l’amélioration ;
  • créer des scénarios de sécurité réalistes pour coller au plus près de la réalité.

Un lien étroit avec le monde réel est primordial pour produire de nouvelles recherches viables sur le machine learning et la cybersécurité.

Orchestration de l’apprentissage automatique

Les ingénieurs devront garder en tête que le machine learning n’est pas destiné à remplacer complètement les systèmes existants et les experts humains. C’est une perspective supplémentaire à utiliser pour identifier des menaces autrement négligées. Un système hybride orchestré pourrait combiner des modèles ML ou non ML dans une architecture d’ensemble ou une architecture de pipeline.

D’autres articles pour la lutte contre la cybercriminalité

 

Je découvre les jobs à pourvoir chez Ozitem