
Generativt Adversarialt Netværk (GAN)
Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

Adversarial machine learning studerer angreb, der bevidst manipulerer AI-modelinputs for at forårsage forkerte outputs, samt forsvar mod dem. Teknikker spænder fra umærkelige billedperturbationer, der narrer klassifikatorer, til designede tekstprompter, der kaprer LLM-adfærd.
Adversarial machine learning er studiet af angreb, der får AI-modeller til at producere forkerte, usikre eller utilsigtede outputs ved bevidst at manipulere deres inputs. Det omfatter både de angrebsteknikker, der udnytter modelsårbarheder, og de defensive tilgange, der gør modeller mere robuste mod dem.
Adversarial ML opstod fra computer vision-forskning i de tidlige 2010’ere, da forskere opdagede, at tilføjelse af umærkeligt små perturbationer til billeder kunne få state-of-the-art klassifikatorer til at fejlklassificere dem med høj tillid. En panda bliver til en gibbon; et stopskilt bliver til et hastighedsbegrænsningsskilt — med pixelændringer, der er usynlige for menneskelige observatører.
Denne opdagelse afslørede, at neurale netværk, på trods af deres imponerende præstation, lærer statistiske mønstre, der kan udnyttes, snarere end robust semantisk forståelse. Det samme underliggende princip — at modeller systematisk kan narres af omhyggeligt designede inputs — gælder på tværs af alle AI-modaliteter, inklusive sprogmodeller.
Modellen angribes på inferenstidspunktet med inputs designet til at forårsage fejlklassificering eller uventet adfærd. I computer vision er disse adversarielle billeder. I NLP og LLM’er omfatter evasion-angreb:
Modellen eller dens datakilder angribes under træning eller hentning. Eksempler omfatter:
Modstandere bruger gentagne forespørgsler til at udtrække information om en models beslutningsgrænser, rekonstruere træningsdata eller replikere modelkapaciteter — en konkurrencemæssig efterretningstrussel for proprietære AI-systemer.
Angribere bestemmer, om specifikke data blev brugt i træning, hvilket potentielt afslører, om følsomme personlige oplysninger blev inkluderet i træningsdatasæt.
Store sprogmodeller står over for adversarielle angreb, der er forskellige fra klassiske ML adversarielle eksempler:
Naturlige sprogangreb er menneskelæsbare. I modsætning til billedperturbationer (umærkelige pixelændringer) bruger effektive LLM adversarielle angreb ofte sammenhængende naturligt sprog — hvilket gør dem meget sværere at skelne fra legitime inputs.
Angrebsoverfladen er instruktionsgrænsefladen. LLM’er er designet til at følge instruktioner. Adversarielle angreb udnytter dette ved at designe inputs, der ser ud som legitime instruktioner til modellen, men opnår angriberens mål.
Gradientbaserede angreb er gennemførlige. For open-source eller white-box-adgangsmodeller kan angribere beregne adversarielle suffikser ved hjælp af gradient descent — den samme teknik, der bruges til at finde adversarielle billedperturbationer. Forskning har demonstreret, at disse beregnede strenge overføres overraskende godt til proprietære modeller.
Social engineering-analog. Mange LLM adversarielle angreb ligner social engineering mere end klassiske ML-angreb — de udnytter modeltendenser mod hjælpsomhed, konsistens og autoritetsoverholdelse.
Inkludering af adversarielle eksempler i træning forbedrer robusthed. Sikkerhedsaligneringstræning for LLM’er inkorporerer eksempler på prompt injection og jailbreaking-forsøg, der lærer modeller at modstå dem. Dog betyder denne oprustningsdynamik, at nye angreb regelmæssigt opstår, der omgår nuværende træning.
Formelle verifikationsteknikker giver matematiske garantier for, at en model korrekt vil klassificere inputs inden for en bestemt perturbationsgrænse. I øjeblikket begrænset til mindre modeller og enklere inputdomæner, men et aktivt forskningsområde.
Sanering af inputs for at fjerne eller neutralisere potentielle adversarielle komponenter, før de når modellen. For LLM’er omfatter dette detektion af injektionsmønstre og anomale inputstrukturer.
Brug af flere modeller og krav om enighed reducerer adversariel overførbarhed. Et angreb, der narrer én model, er mindre sandsynligt at narre alle modeller i et ensemble.
Detektion af adversarielle inputs ved runtime ved at identificere statistiske anomalier eller adfærdsmønstre, der er inkonsistente med normal brug.
For organisationer, der implementerer AI-chatbots, informerer adversarial ML-principper:
Adversarielle eksempler er omhyggeligt designede inputs, der er skabt til at narre en machine learning-model til at lave forkerte forudsigelser. For billedklassifikatorer kan dette være et billede med umærkelige pixelændringer, der forårsager fejlklassificering. For LLM'er omfatter adversarielle eksempler designede prompts, der udløser usikre outputs eller omgår sikkerhedsfiltre.
LLM-sikkerhed er en specialiseret anvendelse af adversarial ML-principper. Prompt injection og jailbreaking er adversarielle angreb på LLM'er — designede inputs skabt til at forårsage forkert eller skadelig adfærd. Adversarielle suffikser (beregnede strenge, der pålideligt jailbreaker modeller) er en direkte anvendelse af klassisk adversariel eksempelforskning på sprogmodeller.
Adversarial training er en forsvarsteknik, der forbedrer modelrobusthed ved at inkludere adversarielle eksempler i træningsdatasættet. Modellen lærer at håndtere inputs korrekt, der tidligere var adversarielle. For LLM'er er dette inkorporeret i sikkerhedsaligneringstræning — modeller trænes på eksempler på angreb for at lære at modstå dem.
Adversarielle sårbarheder i AI-chatbots går ud over klassiske ML-angreb. Vores vurderinger dækker prompt injection, jailbreaking og alle LLM-specifikke adversarielle teknikker.

Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

Modelrobusthed refererer til en maskinlæringsmodels (ML) evne til at opretholde ensartet og nøjagtig ydeevne på trods af variationer og usikkerheder i inputdata...

Tool poisoning og rug pulls er to af de farligste MCP-specifikke angrebsvektorer. Lær hvordan angribere indlejrer ondsindede instruktioner i værktøjsbeskrivelse...