
Modeldrift
Modeldrift, ook wel modelverval genoemd, verwijst naar de afname van de voorspellende prestaties van een machine learning model in de loop van de tijd door vera...

Adversarial machine learning bestudeert aanvallen die opzettelijk AI-modelinvoer manipuleren om onjuiste outputs te veroorzaken, en de verdedigingen daartegen. Technieken variëren van onwaarneembare beeldverstoringen die classifiers misleiden tot speciaal vervaardigde tekstprompts die LLM-gedrag kapen.
Adversarial machine learning is de studie van aanvallen die ervoor zorgen dat AI-modellen onjuiste, onveilige of onbedoelde outputs produceren door opzettelijk hun invoer te manipuleren. Het omvat zowel de aanvalstechnieken die kwetsbaarheden in modellen exploiteren als de defensieve benaderingen die modellen robuuster maken tegen deze aanvallen.
Adversarial ML kwam voort uit computer vision onderzoek in het begin van de jaren 2010, toen onderzoekers ontdekten dat het toevoegen van onwaarneembaar kleine verstoringen aan afbeeldingen ervoor kon zorgen dat state-of-the-art classifiers ze met hoge zekerheid verkeerd classificeerden. Een panda wordt een gibbon; een stopbord wordt een snelheidslimietbord — met pixelveranderingen die onzichtbaar zijn voor menselijke waarnemers.
Deze ontdekking onthulde dat neurale netwerken, ondanks hun indrukwekkende prestaties, statistische patronen leren die geëxploiteerd kunnen worden in plaats van robuust semantisch begrip. Hetzelfde onderliggende principe — dat modellen systematisch misleid kunnen worden door zorgvuldig ontworpen invoer — geldt voor alle AI-modaliteiten, inclusief taalmodellen.
Het model wordt aangevallen tijdens inference met invoer die is ontworpen om verkeerde classificatie of onverwacht gedrag te veroorzaken. In computer vision zijn dit adversarial afbeeldingen. In NLP en LLM’s omvatten evasion attacks:
Het model of zijn gegevensbronnen worden aangevallen tijdens training of retrieval. Voorbeelden zijn:
Tegenstanders gebruiken herhaalde queries om informatie over de beslissingsgrenzen van een model te extraheren, trainingsdata te reconstrueren of modelcapaciteiten te repliceren — een competitive intelligence dreiging voor propriëtaire AI-systemen.
Aanvallers bepalen of specifieke data is gebruikt in training, waardoor mogelijk wordt onthuld of gevoelige persoonlijke informatie is opgenomen in trainingsdatasets.
Grote taalmodellen worden geconfronteerd met adversarial aanvallen die verschillen van klassieke ML adversarial examples:
Natuurlijke taalaanvallen zijn leesbaar voor mensen. In tegenstelling tot beeldverstoringen (onwaarneembare pixelveranderingen) gebruiken effectieve LLM adversarial aanvallen vaak coherente natuurlijke taal — waardoor ze veel moeilijker te onderscheiden zijn van legitieme invoer.
Het aanvalsoppervlak is de instructie-interface. LLM’s zijn ontworpen om instructies te volgen. Adversarial aanvallen exploiteren dit door invoer te vervaardigen die eruitziet als legitieme instructies voor het model maar doelen van aanvallers bereikt.
Gradient-based aanvallen zijn haalbaar. Voor open-source of white-box toegangsmodellen kunnen aanvallers adversarial suffixes berekenen met behulp van gradient descent — dezelfde techniek die wordt gebruikt om adversarial beeldverstoringen te vinden. Onderzoek heeft aangetoond dat deze berekende strings verrassend goed overdragen naar propriëtaire modellen.
Analogie met social engineering. Veel LLM adversarial aanvallen lijken meer op social engineering dan op klassieke ML-aanvallen — ze exploiteren modeltendensen naar behulpzaamheid, consistentie en naleving van autoriteit.
Het opnemen van adversarial examples in training verbetert de robuustheid. Safety alignment training voor LLM’s neemt voorbeelden van prompt injection en jailbreaking pogingen op, waardoor modellen leren ze te weerstaan. Deze wapenwedstrijddynamiek betekent echter dat nieuwe aanvallen regelmatig opduiken die de huidige training omzeilen.
Formele verificatietechnieken bieden wiskundige garanties dat een model invoer correct zal classificeren binnen een bepaalde verstoringsgrens. Momenteel beperkt tot kleinere modellen en eenvoudigere invoerdomeinen, maar een actief onderzoeksgebied.
Het saneren van invoer om potentiële adversarial componenten te verwijderen of te neutraliseren voordat ze het model bereiken. Voor LLM’s omvat dit het detecteren van injectiepatronen en afwijkende invoerstructuren.
Het gebruik van meerdere modellen en het vereisen van overeenstemming vermindert adversarial transferability. Een aanval die één model misleidt, zal minder waarschijnlijk alle modellen in een ensemble misleiden.
Het detecteren van adversarial invoer tijdens runtime door statistische anomalieën of gedragspatronen te identificeren die inconsistent zijn met normaal gebruik.
Adversarial examples zijn zorgvuldig vervaardigde invoer die is ontworpen om een machine learning model te misleiden zodat het onjuiste voorspellingen doet. Voor beeldclassifiers kan dit een afbeelding zijn met onwaarneembare pixelveranderingen die verkeerde classificatie veroorzaakt. Voor LLM's omvatten adversarial examples speciaal vervaardigde prompts die onveilige outputs triggeren of veiligheidsfilters omzeilen.
LLM-beveiliging is een gespecialiseerde toepassing van adversarial ML-principes. Prompt injection en jailbreaking zijn adversarial aanvallen op LLM's — speciaal vervaardigde invoer ontworpen om onjuist of schadelijk gedrag te veroorzaken. Adversarial suffixes (berekende strings die betrouwbaar modellen jailbreaken) zijn een directe toepassing van klassiek adversarial example onderzoek op taalmodellen.
Adversarial training is een verdedigingstechniek die de robuustheid van modellen verbetert door adversarial examples op te nemen in de trainingsdataset. Het model leert om invoer correct te behandelen die voorheen adversarial was. Voor LLM's wordt dit opgenomen in safety alignment training — modellen worden getraind op voorbeelden van aanvallen om te leren ze te weerstaan.
Adversarial kwetsbaarheden in AI-chatbots gaan verder dan klassieke ML-aanvallen. Onze beoordelingen omvatten prompt injection, jailbreaking en alle LLM-specifieke adversarial technieken.

Modeldrift, ook wel modelverval genoemd, verwijst naar de afname van de voorspellende prestaties van een machine learning model in de loop van de tijd door vera...

AI penetratietesten is een gestructureerde beveiligingsbeoordeling van AI-systemen — inclusief LLM chatbots, autonome agents en RAG pipelines — waarbij gesimule...

Een Generative Adversarial Network (GAN) is een machine learning-framework met twee neurale netwerken—een generator en een discriminator—die met elkaar concurre...