
Apprentissage automatique
L'apprentissage automatique (ML) est un sous-ensemble de l'intelligence artificielle (IA) qui permet aux machines d'apprendre à partir de données, d'identifier ...

L’apprentissage automatique adversarial étudie les attaques qui manipulent délibérément les entrées des modèles d’IA pour provoquer des sorties incorrectes, ainsi que les défenses contre celles-ci. Les techniques vont des perturbations d’images imperceptibles qui trompent les classificateurs aux invites textuelles conçues pour détourner le comportement des LLM.
L’apprentissage automatique adversarial est l’étude des attaques qui amènent les modèles d’IA à produire des sorties incorrectes, non sécurisées ou non intentionnelles en manipulant délibérément leurs entrées. Il englobe à la fois les techniques d’attaque qui exploitent les vulnérabilités des modèles et les approches défensives qui rendent les modèles plus robustes contre elles.
Le ML adversarial a émergé de la recherche en vision par ordinateur au début des années 2010, lorsque les chercheurs ont découvert que l’ajout de perturbations imperceptiblement petites aux images pouvait amener des classificateurs de pointe à les mal classifier avec une grande confiance. Un panda devient un gibbon ; un panneau stop devient un panneau de limitation de vitesse — avec des changements de pixels invisibles pour les observateurs humains.
Cette découverte a révélé que les réseaux de neurones, malgré leurs performances impressionnantes, apprennent des modèles statistiques qui peuvent être exploités plutôt qu’une compréhension sémantique robuste. Le même principe sous-jacent — que les modèles peuvent être systématiquement trompés par des entrées soigneusement conçues — s’applique à toutes les modalités d’IA, y compris les modèles de langage.
Le modèle est attaqué au moment de l’inférence avec des entrées conçues pour provoquer une mauvaise classification ou un comportement inattendu. En vision par ordinateur, ce sont des images adversariales. En NLP et pour les LLM, les attaques d’évasion incluent :
Le modèle ou ses sources de données sont attaqués pendant l’entraînement ou la récupération. Les exemples incluent :
Les adversaires utilisent des requêtes répétées pour extraire des informations sur les frontières de décision d’un modèle, reconstruire les données d’entraînement ou reproduire les capacités du modèle — une menace de renseignement concurrentiel pour les systèmes d’IA propriétaires.
Les attaquants déterminent si des données spécifiques ont été utilisées dans l’entraînement, exposant potentiellement si des informations personnelles sensibles ont été incluses dans les ensembles de données d’entraînement.
Les grands modèles de langage font face à des attaques adversariales qui sont distinctes des exemples adversariaux ML classiques :
Les attaques en langage naturel sont lisibles par l’homme. Contrairement aux perturbations d’images (changements de pixels imperceptibles), les attaques adversariales LLM efficaces utilisent souvent un langage naturel cohérent — ce qui les rend beaucoup plus difficiles à distinguer des entrées légitimes.
La surface d’attaque est l’interface d’instruction. Les LLM sont conçus pour suivre des instructions. Les attaques adversariales exploitent cela en créant des entrées qui ressemblent à des instructions légitimes pour le modèle mais atteignent les objectifs de l’attaquant.
Les attaques basées sur le gradient sont viables. Pour les modèles open-source ou avec accès en boîte blanche, les attaquants peuvent calculer des suffixes adversariaux en utilisant la descente de gradient — la même technique utilisée pour trouver des perturbations d’images adversariales. La recherche a démontré que ces chaînes de caractères calculées se transfèrent étonnamment bien aux modèles propriétaires.
Analogie avec l’ingénierie sociale. De nombreuses attaques adversariales LLM ressemblent davantage à de l’ingénierie sociale qu’à des attaques ML classiques — exploitant les tendances du modèle à l’utilité, à la cohérence et à la conformité à l’autorité.
L’inclusion d’exemples adversariaux dans l’entraînement améliore la robustesse. L’entraînement d’alignement de sécurité pour les LLM incorpore des exemples de tentatives d’injection de prompts et de jailbreaking, enseignant aux modèles à y résister. Cependant, cette dynamique de course aux armements signifie que de nouvelles attaques émergent régulièrement qui contournent l’entraînement actuel.
Les techniques de vérification formelle fournissent des garanties mathématiques qu’un modèle classifiera correctement les entrées dans une certaine limite de perturbation. Actuellement limité aux modèles plus petits et aux domaines d’entrée plus simples, mais c’est un domaine de recherche actif.
Assainissement des entrées pour supprimer ou neutraliser les composants adversariaux potentiels avant qu’ils n’atteignent le modèle. Pour les LLM, cela inclut la détection des modèles d’injection et des structures d’entrée anormales.
L’utilisation de plusieurs modèles et l’exigence d’un accord réduisent la transférabilité adversariale. Une attaque qui trompe un modèle est moins susceptible de tromper tous les modèles d’un ensemble.
Détection des entrées adversariales à l’exécution en identifiant des anomalies statistiques ou des modèles comportementaux incompatibles avec une utilisation normale.
Pour les organisations qui déploient des chatbots IA, les principes du ML adversarial informent :
Les vulnérabilités adversariales dans les chatbots IA vont au-delà des attaques ML classiques. Nos évaluations couvrent l'injection de prompts, le jailbreaking et toutes les techniques adversariales spécifiques aux LLM.

L'apprentissage automatique (ML) est un sous-ensemble de l'intelligence artificielle (IA) qui permet aux machines d'apprendre à partir de données, d'identifier ...

Le surapprentissage est un concept clé en intelligence artificielle (IA) et en apprentissage automatique (ML). Il survient lorsqu'un modèle apprend trop bien le...

Le test d'intrusion IA est une évaluation de sécurité structurée des systèmes d'IA — incluant les chatbots LLM, les agents autonomes et les pipelines RAG — util...
Consentement aux Cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation et analyser notre trafic. See our privacy policy.