
OWASP LLM Top 10
De OWASP LLM Top 10 is de industriestandaard lijst van de 10 meest kritieke beveiligings- en veiligheidsrisico's voor applicaties gebouwd op large language mode...

Adversarial machine learning bestudeert aanvallen die opzettelijk AI-modelinvoer manipuleren om onjuiste outputs te veroorzaken, en de verdedigingen daartegen. Technieken variëren van onwaarneembare beeldverstoringen die classifiers misleiden tot speciaal vervaardigde tekstprompts die LLM-gedrag kapen.
Adversarial machine learning is de studie van aanvallen die ervoor zorgen dat AI-modellen onjuiste, onveilige of onbedoelde outputs produceren door opzettelijk hun invoer te manipuleren. Het omvat zowel de aanvalstechnieken die kwetsbaarheden in modellen exploiteren als de defensieve benaderingen die modellen robuuster maken tegen deze aanvallen.
Adversarial ML kwam voort uit computer vision onderzoek in het begin van de jaren 2010, toen onderzoekers ontdekten dat het toevoegen van onwaarneembaar kleine verstoringen aan afbeeldingen ervoor kon zorgen dat state-of-the-art classifiers ze met hoge zekerheid verkeerd classificeerden. Een panda wordt een gibbon; een stopbord wordt een snelheidslimietbord — met pixelveranderingen die onzichtbaar zijn voor menselijke waarnemers.
Deze ontdekking onthulde dat neurale netwerken, ondanks hun indrukwekkende prestaties, statistische patronen leren die geëxploiteerd kunnen worden in plaats van robuust semantisch begrip. Hetzelfde onderliggende principe — dat modellen systematisch misleid kunnen worden door zorgvuldig ontworpen invoer — geldt voor alle AI-modaliteiten, inclusief taalmodellen.
Het model wordt aangevallen tijdens inference met invoer die is ontworpen om verkeerde classificatie of onverwacht gedrag te veroorzaken. In computer vision zijn dit adversarial afbeeldingen. In NLP en LLM’s omvatten evasion attacks:
Het model of zijn gegevensbronnen worden aangevallen tijdens training of retrieval. Voorbeelden zijn:
Tegenstanders gebruiken herhaalde queries om informatie over de beslissingsgrenzen van een model te extraheren, trainingsdata te reconstrueren of modelcapaciteiten te repliceren — een competitive intelligence dreiging voor propriëtaire AI-systemen.
Aanvallers bepalen of specifieke data is gebruikt in training, waardoor mogelijk wordt onthuld of gevoelige persoonlijke informatie is opgenomen in trainingsdatasets.
Grote taalmodellen worden geconfronteerd met adversarial aanvallen die verschillen van klassieke ML adversarial examples:
Natuurlijke taalaanvallen zijn leesbaar voor mensen. In tegenstelling tot beeldverstoringen (onwaarneembare pixelveranderingen) gebruiken effectieve LLM adversarial aanvallen vaak coherente natuurlijke taal — waardoor ze veel moeilijker te onderscheiden zijn van legitieme invoer.
Het aanvalsoppervlak is de instructie-interface. LLM’s zijn ontworpen om instructies te volgen. Adversarial aanvallen exploiteren dit door invoer te vervaardigen die eruitziet als legitieme instructies voor het model maar doelen van aanvallers bereikt.
Gradient-based aanvallen zijn haalbaar. Voor open-source of white-box toegangsmodellen kunnen aanvallers adversarial suffixes berekenen met behulp van gradient descent — dezelfde techniek die wordt gebruikt om adversarial beeldverstoringen te vinden. Onderzoek heeft aangetoond dat deze berekende strings verrassend goed overdragen naar propriëtaire modellen.
Analogie met social engineering. Veel LLM adversarial aanvallen lijken meer op social engineering dan op klassieke ML-aanvallen — ze exploiteren modeltendensen naar behulpzaamheid, consistentie en naleving van autoriteit.
Het opnemen van adversarial examples in training verbetert de robuustheid. Safety alignment training voor LLM’s neemt voorbeelden van prompt injection en jailbreaking pogingen op, waardoor modellen leren ze te weerstaan. Deze wapenwedstrijddynamiek betekent echter dat nieuwe aanvallen regelmatig opduiken die de huidige training omzeilen.
Formele verificatietechnieken bieden wiskundige garanties dat een model invoer correct zal classificeren binnen een bepaalde verstoringsgrens. Momenteel beperkt tot kleinere modellen en eenvoudigere invoerdomeinen, maar een actief onderzoeksgebied.
Het saneren van invoer om potentiële adversarial componenten te verwijderen of te neutraliseren voordat ze het model bereiken. Voor LLM’s omvat dit het detecteren van injectiepatronen en afwijkende invoerstructuren.
Het gebruik van meerdere modellen en het vereisen van overeenstemming vermindert adversarial transferability. Een aanval die één model misleidt, zal minder waarschijnlijk alle modellen in een ensemble misleiden.
Het detecteren van adversarial invoer tijdens runtime door statistische anomalieën of gedragspatronen te identificeren die inconsistent zijn met normaal gebruik.
Adversarial kwetsbaarheden in AI-chatbots gaan verder dan klassieke ML-aanvallen. Onze beoordelingen omvatten prompt injection, jailbreaking en alle LLM-specifieke adversarial technieken.

De OWASP LLM Top 10 is de industriestandaard lijst van de 10 meest kritieke beveiligings- en veiligheidsrisico's voor applicaties gebouwd op large language mode...

LLM-beveiliging omvat de praktijken, technieken en controles die worden gebruikt om large language model implementaties te beschermen tegen een unieke klasse va...

De generaliseringsfout meet hoe goed een machine learning-model onbekende data voorspelt, waarbij bias en variantie worden gebalanceerd om robuuste en betrouwba...