L’introduction des algorithmes de machine learning dans la cybersécurité est encore à un stade précoce. L’objectif de l’apprentissage automatique est de rendre la sécurité plus efficace et évolutive afin d’optimiser le travail et de prévenir les attaques informatiques. Différentes techniques de machine learning, comme le machine learning non supervisé ou supervisé, sont utilisées par les spécialistes de la cybersécurité. Nous retraçons ici l’essentiel à savoir sur comment fonctionne le machine learning et son avenir dans le domaine de la cybersécurité.
La cybersécurité est un ensemble de pratiques, de technologies et de processus visant à protéger les systèmes informatiques, les réseaux et les ensembles de données contre les menaces numériques : accès non autorisés (piratage), virus, logiciels malveillants, l’hameçonnage (phishing), les rançongiciels (ransomwares), etc. L’importance de la cybersécurité a nettement augmenté ces dernières années en suivant l’émergence d’énormes volumes de données collectées et créées sur Internet. Ces quantités de données sont générées par nos activités quotidiennes qui sont de plus en plus liées au cloud computing (services et produits en ligne), mais aussi aux objets connectés (IoT).
Une grande majorité des pays considère la cybermenace comme une menace sérieuse pour la sécurité nationale et internationale. Le 12 mai 2021, Joe Biden signait un décret d’urgence pour la création d’un comité d’examen des cyberattaques et la mise en place de nouvelles normes de sécurité logicielles pour les agences gouvernementales (Institut Montaigne). En France, la cybersécurité est considérée aussi comme une priorité nationale et le pays a mis en place l’ANSSI (Agence nationale de la sécurité des systèmes d’information) pour accompagner les entreprises et les particuliers dans la cyberdéfense.
Les menaces numériques peuvent avoir de graves conséquences sur les entreprises et les particuliers, allant de la perte de données sensibles à l’interruption des opérations commerciales et des services en ligne. IBM estime un coût moyen mondial de violation de données de 4,35 millions de dollars par cyberattaque.
La cybersécurité est donc essentielle pour protéger la confidentialité, l’intégrité et la disponibilité des informations stockées et échangées en ligne.
L’intelligence artificielle (IA) est graduellement mise à profit aussi bien du côté des cyberattaquants que des cyberdéfenseurs. L’OTAN considère d’ailleurs l’IA comme une menace pour la cybersécurité. Mais cet outil à base de réseaux de neurones artificiels permet aussi de rendre plus efficace la cyberdéfense. C’est ce que nous allons voir avec l’introduction des techniques de machine learning dans la cybersécurité.
Largement exploitée dans la littérature de science-fiction, l’intelligence artificielle est une machine capable de simuler le schéma de pensée d’un être humain en utilisant un réseau de neurones artificiels. Actuellement, une machine intelligente est encore très loin de reproduire l’intelligence humaine. Mais, elles permettent tout de même des prouesses jusqu’alors inégalées par des programmes traditionnels, comme l’exploitation des données.
Le réseau de neurones artificiels est un concept inspiré de la structure et du fonctionnement du cerveau humain. Les réseaux de neurones artificiels s’appuient sur l’apprentissage automatique pour remplacer l’humain dans certaines tâches. Ils sont utilisés dans de nombreuses applications d’IA telles que la reconnaissance vocale, la reconnaissance faciale, la traduction automatique, l’analyse de données et bien d’autres encore.
L’apprentissage automatique, appelé machine learning en anglais, est une forme d’IA. Cette sous-discipline de l’intelligence artificielle permet à un système de s’améliorer automatiquement en apprenant à partir de données et conclusions antérieures. Dans The Role of Machine Learning in Cybersecurity, G. Apruzzese et al. (2023) indiquent que « le but de ML est de développer des machines qui apprennent automatiquement à prendre des décisions ». Il utilise des algorithmes d’apprentissage pour analyser les données (phase d’entraînement) et générer des modèles qui permettent aux ordinateurs d’être autonomes avec un pouvoir décisionnel sans être explicitement programmés pour cela. Les trois types de machine learning les plus répandus sont l’apprentissage supervisé, l’apprentissage non supervisé, avec en entre-deux l’apprentissage semi-supervisé, et l’apprentissage par renforcement.
Dérivé du machine learning, l’apprentissage profond ou deep learning repose sur l’apprentissage en profondeur de représentations de données. Il nécessite dès lors une grande quantité de données pour ajuster ses réponses. Par exemple, pour la reconnaissance d’un chat, un assortiment complet d’images de chats est utilisé pour l’apprentissage complet (profond et étendu). Ainsi, la machine sera capable de reconnaître l’animal sous n’importe quel angle.
La sécurité consiste à mesurer et à déjouer les menaces. La cybersécurité en fait de même et tout y est question de gestion et d’analyse avancée des données. À ce sujet, pour les entreprises, les mégadonnées sont devenues le nouvel or noir digital. Les pirates informatiques voient cela du même œil avide, et en font leur cible privilégiée.
Il n’y a pas si longtemps, les données disponibles sur Internet étaient encore peu nombreuses. Les entreprises pouvaient alors se contenter d’antivirus traditionnels pour la détection de logiciels malveillants en se basant sur les signatures, les règles de pare-feu statiques et les listes de contrôle d’accès. Puis, le monde a continué à évoluer vers plus de numérique. Selon Statista, le volume de données numériques créées ou répliquées par an dans le monde était, en 2010, de 2 Zo (1 zettaoctet = 1 trillion de téraoctets), 64 Zo en 2020 et une prévision de 181 Zo a été faite pour 2025.
(Source : Statista)
Vers l’automatisation de l’analyse des données
Cette explosion du big data est essentiellement due au cloud computing et à l’IoT, mais aussi aux mœurs qui évoluent : plus de télétravail, plus de réunions à distance, plus de services en ligne (SaaS, PaaS, IaaS), etc. Le volume de données est devenu si important que les analystes de données seuls ne peuvent y faire face. En proposant d’automatiser des tâches, comme les analyses avancées de données et la détection des menaces, le machine learning est devenu d’une importance capitale pour la cybersécurité.
Le big data est devenu une manne attisant toutes les convoitises, surtout celles des hackers. Les cyberattaques se multiplient et se complexifient, à tel point que l’analyse des données massives dans des temps très courts par des personnes est devenu impossible. Cela réclamerait un trop lourd investissement financier et humain. En revanche, l’IA et le machine learning ont cette capacité à analyser des masses de données, en temps réel, sans souffrir de la faiblesse des erreurs humaines. Ces dernières se résument le plus souvent à des erreurs de jugement principalement dues à la fatigue et à la baisse de la concentration.
Pour faire court, utiliser le machine learning dans la cybersécurité permet de :
« Le machine learning excelle dans les tâches pénibles telles que l’identification et l’adaptation des schémas de données » (Kaspersky) et il s’intègre dans la cybersécurité à différents niveaux :
Également, comme le soulignent G. Apruzzes et al. (2023) dans leur article, le machine learning peut remplir quatre autres tâches importantes : la gestion des alertes, l’analyse des données brutes, l’évaluation de l’exposition au risque et le renseignement sur les cybermenaces.
Intégrer le machine learning dans la cybersécurité n’est cependant pas si simple. Un « conflit sous-jacent entre les caractéristiques intrinsèques du domaine de la cybersécurité et les hypothèses fondamentales du ML » (G. Apruzzes et al., 2023) entraîne des complications et des défis à relever.
Les méthodes d’apprentissage automatique suivent le principe de variables aléatoires indépendantes et identiquement distribuées. Cela signifie que les données d’entrée servant d’échantillons d’apprentissage machine correspondent à des données futures que le modèle de machine learning analysera. Mais, on doit faire face à trois caractéristiques du domaine de la cybersécurité :
Toute amélioration est appréciable, surtout lorsqu’il s’agit de sécurité de l’information. Néanmoins, rapprocher la recherche et la pratique sur la cybersécurité et le machine learning est encore mieux. G. Apruzzes et al. invitent les quatre acteurs majeurs (organismes de réglementation, dirigeants d’entreprise, ingénieurs et communauté de recherche) à une contribution conjointe pour améliorer considérablement la cybersécurité moderne. Voici un résumé de leur plan d’action.
La fiabilité du machine learning est un point crucial, et ceci est d’autant plus vrai pour la cybersécurité. Des procédures permettant de certifier la performance et la robustesse des systèmes de cyberdéfense doivent être élaborées et appliquées par les organismes de réglementation. Or, aujourd’hui, il existe un manque de protocoles d’évaluation standardisés. Les évaluations actuelles ont tendance à gonfler les résultats pour favoriser une solution plutôt qu’une autre. Une attestation de performances et un certificat de robustesse basés sur des protocoles d’évaluations normalisés favoriseraient des comparaisons justes et équitables.
Les acteurs industriels et les autorités législatives devraient rendre plus accessibles certains ensembles de données qui permettront de définir des modèles ML viables pour la sécurité de l’information. Actuellement, les données sont rapidement obsolètes et peuvent parfois être inexactes. Il est donc nécessaire de mettre en place une solution de partage de données étiquetées accompagnée d’un règlement sur les données exploitables.
Cette nouvelle tendance de lier machine learning et cybersécurité est une source d’inspiration pour la recherche. Mais attention au revers, car la profusion d’articles sur le sujet peut soulever plus de questions que fournir des réponses. Il sera important donc de :
Un lien étroit avec le monde réel est primordial pour produire de nouvelles recherches viables sur le machine learning et la cybersécurité.
Les ingénieurs devront garder en tête que le machine learning n’est pas destiné à remplacer complètement les systèmes existants et les experts humains. C’est une perspective supplémentaire à utiliser pour identifier des menaces autrement négligées. Un système hybride orchestré pourrait combiner des modèles ML ou non ML dans une architecture d’ensemble ou une architecture de pipeline.
© 2023 Groupe Ozitem Mentions légales Politique de confidentialité