Hvad er adversarielle eksempler?

Adversarielle eksempler er omhyggeligt designede inputs, der er skabt til at narre en machine learning-model til at lave forkerte forudsigelser. For billedklassifikatorer kan dette være et billede med umærkelige pixelændringer, der forårsager fejlklassificering. For LLM'er omfatter adversarielle eksempler designede prompts, der udløser usikre outputs eller omgår sikkerhedsfiltre.

Hvordan forholder adversarial ML sig til LLM-sikkerhed?

LLM-sikkerhed er en specialiseret anvendelse af adversarial ML-principper. Prompt injection og jailbreaking er adversarielle angreb på LLM'er — designede inputs skabt til at forårsage forkert eller skadelig adfærd. Adversarielle suffikser (beregnede strenge, der pålideligt jailbreaker modeller) er en direkte anvendelse af klassisk adversariel eksempelforskning på sprogmodeller.

Hvad er adversarial training?

Adversarial training er en forsvarsteknik, der forbedrer modelrobusthed ved at inkludere adversarielle eksempler i træningsdatasættet. Modellen lærer at håndtere inputs korrekt, der tidligere var adversarielle. For LLM'er er dette inkorporeret i sikkerhedsaligneringstræning — modeller trænes på eksempler på angreb for at lære at modstå dem.

Adversarial Machine Learning

Adversarial machine learning studerer angreb, der bevidst manipulerer AI-modelinputs for at forårsage forkerte outputs, samt forsvar mod dem. Teknikker spænder fra umærkelige billedperturbationer, der narrer klassifikatorer, til designede tekstprompter, der kaprer LLM-adfærd.

Adversarial machine learning er studiet af angreb, der får AI-modeller til at producere forkerte, usikre eller utilsigtede outputs ved bevidst at manipulere deres inputs. Det omfatter både de angrebsteknikker, der udnytter modelsårbarheder, og de defensive tilgange, der gør modeller mere robuste mod dem.

Adversarial Machine Learning-landskabet

Adversarial ML opstod fra computer vision-forskning i de tidlige 2010’ere, da forskere opdagede, at tilføjelse af umærkeligt små perturbationer til billeder kunne få state-of-the-art klassifikatorer til at fejlklassificere dem med høj tillid. En panda bliver til en gibbon; et stopskilt bliver til et hastighedsbegrænsningsskilt — med pixelændringer, der er usynlige for menneskelige observatører.

Denne opdagelse afslørede, at neurale netværk, på trods af deres imponerende præstation, lærer statistiske mønstre, der kan udnyttes, snarere end robust semantisk forståelse. Det samme underliggende princip — at modeller systematisk kan narres af omhyggeligt designede inputs — gælder på tværs af alle AI-modaliteter, inklusive sprogmodeller.

Adversarielle angreb efter kategori

Evasion-angreb

Modellen angribes på inferenstidspunktet med inputs designet til at forårsage fejlklassificering eller uventet adfærd. I computer vision er disse adversarielle billeder. I NLP og LLM’er omfatter evasion-angreb:

Prompt injection : Designet tekst, der tilsidesætter systeminstruktioner
Jailbreaking : Prompts, der omgår sikkerhedsbarrierer
Token smuggling : Kodningsmanipulationer, der undgår indholdsfiltre
Adversarielle suffikser: Algoritmisk beregnede strenge, der pålideligt forårsager skadelige outputs

Forgiftningsangreb

Modellen eller dens datakilder angribes under træning eller hentning. Eksempler omfatter:

Træningsdataforgiftning: Injektion af ondsindede eksempler i træningsdatasæt for at introducere bagdøre eller bias
RAG-forgiftning : Kontaminering af retrieval-vidensbaserne med ondsindet indhold
Fine-tuning-angreb: Forgiftning af domænespecifikke fine-tuning-datasæt

Modelekstraktion / tyveri

Modstandere bruger gentagne forespørgsler til at udtrække information om en models beslutningsgrænser, rekonstruere træningsdata eller replikere modelkapaciteter — en konkurrencemæssig efterretningstrussel for proprietære AI-systemer.

Medlemskabsinferens

Angribere bestemmer, om specifikke data blev brugt i træning, hvilket potentielt afslører, om følsomme personlige oplysninger blev inkluderet i træningsdatasæt.

Adversarielle angreb på LLM’er: Et specialiseret domæne

Store sprogmodeller står over for adversarielle angreb, der er forskellige fra klassiske ML adversarielle eksempler:

Naturlige sprogangreb er menneskelæsbare. I modsætning til billedperturbationer (umærkelige pixelændringer) bruger effektive LLM adversarielle angreb ofte sammenhængende naturligt sprog — hvilket gør dem meget sværere at skelne fra legitime inputs.

Angrebsoverfladen er instruktionsgrænsefladen. LLM’er er designet til at følge instruktioner. Adversarielle angreb udnytter dette ved at designe inputs, der ser ud som legitime instruktioner til modellen, men opnår angriberens mål.

Gradientbaserede angreb er gennemførlige. For open-source eller white-box-adgangsmodeller kan angribere beregne adversarielle suffikser ved hjælp af gradient descent — den samme teknik, der bruges til at finde adversarielle billedperturbationer. Forskning har demonstreret, at disse beregnede strenge overføres overraskende godt til proprietære modeller.

Social engineering-analog. Mange LLM adversarielle angreb ligner social engineering mere end klassiske ML-angreb — de udnytter modeltendenser mod hjælpsomhed, konsistens og autoritetsoverholdelse.

Forsvar og modforanstaltninger

Adversarial training

Inkludering af adversarielle eksempler i træning forbedrer robusthed. Sikkerhedsaligneringstræning for LLM’er inkorporerer eksempler på prompt injection og jailbreaking-forsøg, der lærer modeller at modstå dem. Dog betyder denne oprustningsdynamik, at nye angreb regelmæssigt opstår, der omgår nuværende træning.

Certificeret robusthed

Formelle verifikationsteknikker giver matematiske garantier for, at en model korrekt vil klassificere inputs inden for en bestemt perturbationsgrænse. I øjeblikket begrænset til mindre modeller og enklere inputdomæner, men et aktivt forskningsområde.

Inputforbehandling og validering

Sanering af inputs for at fjerne eller neutralisere potentielle adversarielle komponenter, før de når modellen. For LLM’er omfatter dette detektion af injektionsmønstre og anomale inputstrukturer.

Ensemble-metoder

Brug af flere modeller og krav om enighed reducerer adversariel overførbarhed. Et angreb, der narrer én model, er mindre sandsynligt at narre alle modeller i et ensemble.

Overvågning og anomalidetektion

Detektion af adversarielle inputs ved runtime ved at identificere statistiske anomalier eller adfærdsmønstre, der er inkonsistente med normal brug.

Anvendelse på AI-chatbot-sikkerhed

For organisationer, der implementerer AI-chatbots, informerer adversarial ML-principper:

AI red teaming : Systematisk adversariel undersøgelse af AI-systemer
Robusthedsvurdering: Test af, om sikkerhedsadfærd holder under adversarielle forhold
Inputvalideringsdesign: Forståelse af, hvilke klasser af adversarielle inputs der eksisterer, informerer, hvad der skal valideres
Forsvarsdybde: Intet enkelt forsvar er robust; lagdelte kontroller er påkrævet

Relaterede termer

Prompt Injection — adversarielle angreb rettet mod LLM-instruktionsfølgning
Jailbreaking AI — adversariel omgåelse af sikkerhedsbarrierer
Token Smuggling — kodningsbaseret adversariel filterundgåelse
AI Red Teaming — systematisk adversariel sikkerhedstest
LLM Security — omfattende AI-sikkerhedspraksis

Ofte stillede spørgsmål

Hvad er adversarielle eksempler?: Adversarielle eksempler er omhyggeligt designede inputs, der er skabt til at narre en machine learning-model til at lave forkerte forudsigelser. For billedklassifikatorer kan dette være et billede med umærkelige pixelændringer, der forårsager fejlklassificering. For LLM'er omfatter adversarielle eksempler designede prompts, der udløser usikre outputs eller omgår sikkerhedsfiltre.
Hvordan forholder adversarial ML sig til LLM-sikkerhed?: LLM-sikkerhed er en specialiseret anvendelse af adversarial ML-principper. Prompt injection og jailbreaking er adversarielle angreb på LLM'er — designede inputs skabt til at forårsage forkert eller skadelig adfærd. Adversarielle suffikser (beregnede strenge, der pålideligt jailbreaker modeller) er en direkte anvendelse af klassisk adversariel eksempelforskning på sprogmodeller.
Hvad er adversarial training?: Adversarial training er en forsvarsteknik, der forbedrer modelrobusthed ved at inkludere adversarielle eksempler i træningsdatasættet. Modellen lærer at håndtere inputs korrekt, der tidligere var adversarielle. For LLM'er er dette inkorporeret i sikkerhedsaligneringstræning — modeller trænes på eksempler på angreb for at lære at modstå dem.

Test dit AI-systems adversarielle robusthed

Adversarielle sårbarheder i AI-chatbots går ud over klassiske ML-angreb. Vores vurderinger dækker prompt injection, jailbreaking og alle LLM-specifikke adversarielle teknikker.

Book en sikkerhedsvurdering Book en demo

Lær mere

Generativt Adversarialt Netværk (GAN)

Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

May 30, 2025 7 min læsning

GAN Generative AI +5

Modelrobusthed

Modelrobusthed refererer til en maskinlæringsmodels (ML) evne til at opretholde ensartet og nøjagtig ydeevne på trods af variationer og usikkerheder i inputdata...

May 30, 2025 5 min læsning

AI Machine Learning +4

MCP Tool Poisoning og Rug Pulls: Hvordan Angribere Kaprer AI-Værktøjsregistre

Tool poisoning og rug pulls er to af de farligste MCP-specifikke angrebsvektorer. Lær hvordan angribere indlejrer ondsindede instruktioner i værktøjsbeskrivelse...

Mar 12, 2026 7 min læsning

MCP Security AI Security +3