Wat zijn adversarial examples?

Adversarial examples zijn zorgvuldig vervaardigde invoer die is ontworpen om een machine learning model te misleiden zodat het onjuiste voorspellingen doet. Voor beeldclassifiers kan dit een afbeelding zijn met onwaarneembare pixelveranderingen die verkeerde classificatie veroorzaakt. Voor LLM's omvatten adversarial examples speciaal vervaardigde prompts die onveilige outputs triggeren of veiligheidsfilters omzeilen.

Hoe verhoudt adversarial ML zich tot LLM-beveiliging?

LLM-beveiliging is een gespecialiseerde toepassing van adversarial ML-principes. Prompt injection en jailbreaking zijn adversarial aanvallen op LLM's — speciaal vervaardigde invoer ontworpen om onjuist of schadelijk gedrag te veroorzaken. Adversarial suffixes (berekende strings die betrouwbaar modellen jailbreaken) zijn een directe toepassing van klassiek adversarial example onderzoek op taalmodellen.

Wat is adversarial training?

Adversarial training is een verdedigingstechniek die de robuustheid van modellen verbetert door adversarial examples op te nemen in de trainingsdataset. Het model leert om invoer correct te behandelen die voorheen adversarial was. Voor LLM's wordt dit opgenomen in safety alignment training — modellen worden getraind op voorbeelden van aanvallen om te leren ze te weerstaan.

Adversarial Machine Learning

Adversarial machine learning bestudeert aanvallen die opzettelijk AI-modelinvoer manipuleren om onjuiste outputs te veroorzaken, en de verdedigingen daartegen. Technieken variëren van onwaarneembare beeldverstoringen die classifiers misleiden tot speciaal vervaardigde tekstprompts die LLM-gedrag kapen.

Adversarial machine learning is de studie van aanvallen die ervoor zorgen dat AI-modellen onjuiste, onveilige of onbedoelde outputs produceren door opzettelijk hun invoer te manipuleren. Het omvat zowel de aanvalstechnieken die kwetsbaarheden in modellen exploiteren als de defensieve benaderingen die modellen robuuster maken tegen deze aanvallen.

Het Adversarial Machine Learning Landschap

Adversarial ML kwam voort uit computer vision onderzoek in het begin van de jaren 2010, toen onderzoekers ontdekten dat het toevoegen van onwaarneembaar kleine verstoringen aan afbeeldingen ervoor kon zorgen dat state-of-the-art classifiers ze met hoge zekerheid verkeerd classificeerden. Een panda wordt een gibbon; een stopbord wordt een snelheidslimietbord — met pixelveranderingen die onzichtbaar zijn voor menselijke waarnemers.

Deze ontdekking onthulde dat neurale netwerken, ondanks hun indrukwekkende prestaties, statistische patronen leren die geëxploiteerd kunnen worden in plaats van robuust semantisch begrip. Hetzelfde onderliggende principe — dat modellen systematisch misleid kunnen worden door zorgvuldig ontworpen invoer — geldt voor alle AI-modaliteiten, inclusief taalmodellen.

Adversarial Aanvallen per Categorie

Evasion Attacks

Het model wordt aangevallen tijdens inference met invoer die is ontworpen om verkeerde classificatie of onverwacht gedrag te veroorzaken. In computer vision zijn dit adversarial afbeeldingen. In NLP en LLM’s omvatten evasion attacks:

Prompt injection : Speciaal vervaardigde tekst die systeeminstructies overschrijft
Jailbreaking : Prompts die veiligheidshekken omzeilen
Token smuggling : Coderingsmanipulaties die contentfilters ontwijken
Adversarial suffixes: Algoritmisch berekende strings die betrouwbaar schadelijke outputs veroorzaken

Poisoning Attacks

Het model of zijn gegevensbronnen worden aangevallen tijdens training of retrieval. Voorbeelden zijn:

Training data poisoning: Het injecteren van kwaadaardige voorbeelden in trainingsdatasets om backdoors of bias te introduceren
RAG poisoning : Het contamineren van retrieval knowledge bases met kwaadaardige content
Fine-tuning attacks: Het vergiftigen van domeinspecifieke fine-tuning datasets

Model Extraction / Theft

Tegenstanders gebruiken herhaalde queries om informatie over de beslissingsgrenzen van een model te extraheren, trainingsdata te reconstrueren of modelcapaciteiten te repliceren — een competitive intelligence dreiging voor propriëtaire AI-systemen.

Membership Inference

Aanvallers bepalen of specifieke data is gebruikt in training, waardoor mogelijk wordt onthuld of gevoelige persoonlijke informatie is opgenomen in trainingsdatasets.

Adversarial Aanvallen op LLM’s: Een Gespecialiseerd Domein

Grote taalmodellen worden geconfronteerd met adversarial aanvallen die verschillen van klassieke ML adversarial examples:

Natuurlijke taalaanvallen zijn leesbaar voor mensen. In tegenstelling tot beeldverstoringen (onwaarneembare pixelveranderingen) gebruiken effectieve LLM adversarial aanvallen vaak coherente natuurlijke taal — waardoor ze veel moeilijker te onderscheiden zijn van legitieme invoer.

Het aanvalsoppervlak is de instructie-interface. LLM’s zijn ontworpen om instructies te volgen. Adversarial aanvallen exploiteren dit door invoer te vervaardigen die eruitziet als legitieme instructies voor het model maar doelen van aanvallers bereikt.

Gradient-based aanvallen zijn haalbaar. Voor open-source of white-box toegangsmodellen kunnen aanvallers adversarial suffixes berekenen met behulp van gradient descent — dezelfde techniek die wordt gebruikt om adversarial beeldverstoringen te vinden. Onderzoek heeft aangetoond dat deze berekende strings verrassend goed overdragen naar propriëtaire modellen.

Analogie met social engineering. Veel LLM adversarial aanvallen lijken meer op social engineering dan op klassieke ML-aanvallen — ze exploiteren modeltendensen naar behulpzaamheid, consistentie en naleving van autoriteit.

Verdedigingen en Tegenmaatregelen

Adversarial Training

Het opnemen van adversarial examples in training verbetert de robuustheid. Safety alignment training voor LLM’s neemt voorbeelden van prompt injection en jailbreaking pogingen op, waardoor modellen leren ze te weerstaan. Deze wapenwedstrijddynamiek betekent echter dat nieuwe aanvallen regelmatig opduiken die de huidige training omzeilen.

Certified Robustness

Formele verificatietechnieken bieden wiskundige garanties dat een model invoer correct zal classificeren binnen een bepaalde verstoringsgrens. Momenteel beperkt tot kleinere modellen en eenvoudigere invoerdomeinen, maar een actief onderzoeksgebied.

Input Preprocessing en Validation

Het saneren van invoer om potentiële adversarial componenten te verwijderen of te neutraliseren voordat ze het model bereiken. Voor LLM’s omvat dit het detecteren van injectiepatronen en afwijkende invoerstructuren.

Ensemble Methods

Het gebruik van meerdere modellen en het vereisen van overeenstemming vermindert adversarial transferability. Een aanval die één model misleidt, zal minder waarschijnlijk alle modellen in een ensemble misleiden.

Monitoring en Anomaly Detection

Het detecteren van adversarial invoer tijdens runtime door statistische anomalieën of gedragspatronen te identificeren die inconsistent zijn met normaal gebruik.

Veelgestelde vragen

Wat zijn adversarial examples?: Adversarial examples zijn zorgvuldig vervaardigde invoer die is ontworpen om een machine learning model te misleiden zodat het onjuiste voorspellingen doet. Voor beeldclassifiers kan dit een afbeelding zijn met onwaarneembare pixelveranderingen die verkeerde classificatie veroorzaakt. Voor LLM's omvatten adversarial examples speciaal vervaardigde prompts die onveilige outputs triggeren of veiligheidsfilters omzeilen.
Hoe verhoudt adversarial ML zich tot LLM-beveiliging?: LLM-beveiliging is een gespecialiseerde toepassing van adversarial ML-principes. Prompt injection en jailbreaking zijn adversarial aanvallen op LLM's — speciaal vervaardigde invoer ontworpen om onjuist of schadelijk gedrag te veroorzaken. Adversarial suffixes (berekende strings die betrouwbaar modellen jailbreaken) zijn een directe toepassing van klassiek adversarial example onderzoek op taalmodellen.
Wat is adversarial training?: Adversarial training is een verdedigingstechniek die de robuustheid van modellen verbetert door adversarial examples op te nemen in de trainingsdataset. Het model leert om invoer correct te behandelen die voorheen adversarial was. Voor LLM's wordt dit opgenomen in safety alignment training — modellen worden getraind op voorbeelden van aanvallen om te leren ze te weerstaan.

Test de Adversarial Robustness van uw AI-systeem

Adversarial kwetsbaarheden in AI-chatbots gaan verder dan klassieke ML-aanvallen. Onze beoordelingen omvatten prompt injection, jailbreaking en alle LLM-specifieke adversarial technieken.

Boek een Security Assessment Boek een Demo

Meer informatie

Modeldrift

Modeldrift, ook wel modelverval genoemd, verwijst naar de afname van de voorspellende prestaties van een machine learning model in de loop van de tijd door vera...

May 30, 2025 8 min lezen

AI Machine Learning +4

AI Penetratietesten

AI penetratietesten is een gestructureerde beveiligingsbeoordeling van AI-systemen — inclusief LLM chatbots, autonome agents en RAG pipelines — waarbij gesimule...

Mar 12, 2026 4 min lezen

AI Penetration Testing AI Security +3

Generative Adversarial Network (GAN)

Een Generative Adversarial Network (GAN) is een machine learning-framework met twee neurale netwerken—een generator en een discriminator—die met elkaar concurre...