
Generativt Adversarialt Netværk (GAN)
Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

Adversarial machine learning studerer angreb, der bevidst manipulerer AI-modelinputs for at forårsage forkerte outputs, samt forsvar mod dem. Teknikker spænder fra umærkelige billedperturbationer, der narrer klassifikatorer, til designede tekstprompter, der kaprer LLM-adfærd.
Adversarial machine learning er studiet af angreb, der får AI-modeller til at producere forkerte, usikre eller utilsigtede outputs ved bevidst at manipulere deres inputs. Det omfatter både de angrebsteknikker, der udnytter modelsårbarheder, og de defensive tilgange, der gør modeller mere robuste mod dem.
Adversarial ML opstod fra computer vision-forskning i de tidlige 2010’ere, da forskere opdagede, at tilføjelse af umærkeligt små perturbationer til billeder kunne få state-of-the-art klassifikatorer til at fejlklassificere dem med høj tillid. En panda bliver til en gibbon; et stopskilt bliver til et hastighedsbegrænsningsskilt — med pixelændringer, der er usynlige for menneskelige observatører.
Denne opdagelse afslørede, at neurale netværk, på trods af deres imponerende præstation, lærer statistiske mønstre, der kan udnyttes, snarere end robust semantisk forståelse. Det samme underliggende princip — at modeller systematisk kan narres af omhyggeligt designede inputs — gælder på tværs af alle AI-modaliteter, inklusive sprogmodeller.
Modellen angribes på inferenstidspunktet med inputs designet til at forårsage fejlklassificering eller uventet adfærd. I computer vision er disse adversarielle billeder. I NLP og LLM’er omfatter evasion-angreb:
Modellen eller dens datakilder angribes under træning eller hentning. Eksempler omfatter:
Modstandere bruger gentagne forespørgsler til at udtrække information om en models beslutningsgrænser, rekonstruere træningsdata eller replikere modelkapaciteter — en konkurrencemæssig efterretningstrussel for proprietære AI-systemer.
Angribere bestemmer, om specifikke data blev brugt i træning, hvilket potentielt afslører, om følsomme personlige oplysninger blev inkluderet i træningsdatasæt.
Store sprogmodeller står over for adversarielle angreb, der er forskellige fra klassiske ML adversarielle eksempler:
Naturlige sprogangreb er menneskelæsbare. I modsætning til billedperturbationer (umærkelige pixelændringer) bruger effektive LLM adversarielle angreb ofte sammenhængende naturligt sprog — hvilket gør dem meget sværere at skelne fra legitime inputs.
Angrebsoverfladen er instruktionsgrænsefladen. LLM’er er designet til at følge instruktioner. Adversarielle angreb udnytter dette ved at designe inputs, der ser ud som legitime instruktioner til modellen, men opnår angriberens mål.
Gradientbaserede angreb er gennemførlige. For open-source eller white-box-adgangsmodeller kan angribere beregne adversarielle suffikser ved hjælp af gradient descent — den samme teknik, der bruges til at finde adversarielle billedperturbationer. Forskning har demonstreret, at disse beregnede strenge overføres overraskende godt til proprietære modeller.
Social engineering-analog. Mange LLM adversarielle angreb ligner social engineering mere end klassiske ML-angreb — de udnytter modeltendenser mod hjælpsomhed, konsistens og autoritetsoverholdelse.
Inkludering af adversarielle eksempler i træning forbedrer robusthed. Sikkerhedsaligneringstræning for LLM’er inkorporerer eksempler på prompt injection og jailbreaking-forsøg, der lærer modeller at modstå dem. Dog betyder denne oprustningsdynamik, at nye angreb regelmæssigt opstår, der omgår nuværende træning.
Formelle verifikationsteknikker giver matematiske garantier for, at en model korrekt vil klassificere inputs inden for en bestemt perturbationsgrænse. I øjeblikket begrænset til mindre modeller og enklere inputdomæner, men et aktivt forskningsområde.
Sanering af inputs for at fjerne eller neutralisere potentielle adversarielle komponenter, før de når modellen. For LLM’er omfatter dette detektion af injektionsmønstre og anomale inputstrukturer.
Brug af flere modeller og krav om enighed reducerer adversariel overførbarhed. Et angreb, der narrer én model, er mindre sandsynligt at narre alle modeller i et ensemble.
Detektion af adversarielle inputs ved runtime ved at identificere statistiske anomalier eller adfærdsmønstre, der er inkonsistente med normal brug.
For organisationer, der implementerer AI-chatbots, informerer adversarial ML-principper:
Adversarielle sårbarheder i AI-chatbots går ud over klassiske ML-angreb. Vores vurderinger dækker prompt injection, jailbreaking og alle LLM-specifikke adversarielle teknikker.

Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

Den komplette tekniske guide til OWASP LLM Top 10 — dækker alle 10 sårbarhedskategorier med reelle angrebseksempler, alvorlighedskontekst og konkret afhjælpning...

LLM-sikkerhed omfatter de praksisser, teknikker og kontrolforanstaltninger, der bruges til at beskytte implementeringer af store sprogmodeller mod en unik klass...
Cookie Samtykke
Vi bruger cookies til at forbedre din browsingoplevelse og analysere vores trafik. See our privacy policy.