Adversarial Machine Learning

Adversarial machine learning er studiet af angreb, der får AI-modeller til at producere forkerte, usikre eller utilsigtede outputs ved bevidst at manipulere deres inputs. Det omfatter både de angrebsteknikker, der udnytter modelsårbarheder, og de defensive tilgange, der gør modeller mere robuste mod dem.

Adversarial Machine Learning-landskabet

Adversarial ML opstod fra computer vision-forskning i de tidlige 2010’ere, da forskere opdagede, at tilføjelse af umærkeligt små perturbationer til billeder kunne få state-of-the-art klassifikatorer til at fejlklassificere dem med høj tillid. En panda bliver til en gibbon; et stopskilt bliver til et hastighedsbegrænsningsskilt — med pixelændringer, der er usynlige for menneskelige observatører.

Denne opdagelse afslørede, at neurale netværk, på trods af deres imponerende præstation, lærer statistiske mønstre, der kan udnyttes, snarere end robust semantisk forståelse. Det samme underliggende princip — at modeller systematisk kan narres af omhyggeligt designede inputs — gælder på tværs af alle AI-modaliteter, inklusive sprogmodeller.

Adversarielle angreb efter kategori

Evasion-angreb

Modellen angribes på inferenstidspunktet med inputs designet til at forårsage fejlklassificering eller uventet adfærd. I computer vision er disse adversarielle billeder. I NLP og LLM’er omfatter evasion-angreb:

  • Prompt injection : Designet tekst, der tilsidesætter systeminstruktioner
  • Jailbreaking : Prompts, der omgår sikkerhedsbarrierer
  • Token smuggling : Kodningsmanipulationer, der undgår indholdsfiltre
  • Adversarielle suffikser: Algoritmisk beregnede strenge, der pålideligt forårsager skadelige outputs

Forgiftningsangreb

Modellen eller dens datakilder angribes under træning eller hentning. Eksempler omfatter:

  • Træningsdataforgiftning: Injektion af ondsindede eksempler i træningsdatasæt for at introducere bagdøre eller bias
  • RAG-forgiftning : Kontaminering af retrieval-vidensbaserne med ondsindet indhold
  • Fine-tuning-angreb: Forgiftning af domænespecifikke fine-tuning-datasæt

Modelekstraktion / tyveri

Modstandere bruger gentagne forespørgsler til at udtrække information om en models beslutningsgrænser, rekonstruere træningsdata eller replikere modelkapaciteter — en konkurrencemæssig efterretningstrussel for proprietære AI-systemer.

Medlemskabsinferens

Angribere bestemmer, om specifikke data blev brugt i træning, hvilket potentielt afslører, om følsomme personlige oplysninger blev inkluderet i træningsdatasæt.

Logo

Klar til at vokse din virksomhed?

Start din gratis prøveperiode i dag og se resultater inden for få dage.

Adversarielle angreb på LLM’er: Et specialiseret domæne

Store sprogmodeller står over for adversarielle angreb, der er forskellige fra klassiske ML adversarielle eksempler:

Naturlige sprogangreb er menneskelæsbare. I modsætning til billedperturbationer (umærkelige pixelændringer) bruger effektive LLM adversarielle angreb ofte sammenhængende naturligt sprog — hvilket gør dem meget sværere at skelne fra legitime inputs.

Angrebsoverfladen er instruktionsgrænsefladen. LLM’er er designet til at følge instruktioner. Adversarielle angreb udnytter dette ved at designe inputs, der ser ud som legitime instruktioner til modellen, men opnår angriberens mål.

Gradientbaserede angreb er gennemførlige. For open-source eller white-box-adgangsmodeller kan angribere beregne adversarielle suffikser ved hjælp af gradient descent — den samme teknik, der bruges til at finde adversarielle billedperturbationer. Forskning har demonstreret, at disse beregnede strenge overføres overraskende godt til proprietære modeller.

Social engineering-analog. Mange LLM adversarielle angreb ligner social engineering mere end klassiske ML-angreb — de udnytter modeltendenser mod hjælpsomhed, konsistens og autoritetsoverholdelse.

Forsvar og modforanstaltninger

Adversarial training

Inkludering af adversarielle eksempler i træning forbedrer robusthed. Sikkerhedsaligneringstræning for LLM’er inkorporerer eksempler på prompt injection og jailbreaking-forsøg, der lærer modeller at modstå dem. Dog betyder denne oprustningsdynamik, at nye angreb regelmæssigt opstår, der omgår nuværende træning.

Certificeret robusthed

Formelle verifikationsteknikker giver matematiske garantier for, at en model korrekt vil klassificere inputs inden for en bestemt perturbationsgrænse. I øjeblikket begrænset til mindre modeller og enklere inputdomæner, men et aktivt forskningsområde.

Inputforbehandling og validering

Sanering af inputs for at fjerne eller neutralisere potentielle adversarielle komponenter, før de når modellen. For LLM’er omfatter dette detektion af injektionsmønstre og anomale inputstrukturer.

Ensemble-metoder

Brug af flere modeller og krav om enighed reducerer adversariel overførbarhed. Et angreb, der narrer én model, er mindre sandsynligt at narre alle modeller i et ensemble.

Overvågning og anomalidetektion

Detektion af adversarielle inputs ved runtime ved at identificere statistiske anomalier eller adfærdsmønstre, der er inkonsistente med normal brug.

Anvendelse på AI-chatbot-sikkerhed

For organisationer, der implementerer AI-chatbots, informerer adversarial ML-principper:

  • AI red teaming : Systematisk adversariel undersøgelse af AI-systemer
  • Robusthedsvurdering: Test af, om sikkerhedsadfærd holder under adversarielle forhold
  • Inputvalideringsdesign: Forståelse af, hvilke klasser af adversarielle inputs der eksisterer, informerer, hvad der skal valideres
  • Forsvarsdybde: Intet enkelt forsvar er robust; lagdelte kontroller er påkrævet

Relaterede termer

Ofte stillede spørgsmål

Hvad er adversarielle eksempler?

Adversarielle eksempler er omhyggeligt designede inputs, der er skabt til at narre en machine learning-model til at lave forkerte forudsigelser. For billedklassifikatorer kan dette være et billede med umærkelige pixelændringer, der forårsager fejlklassificering. For LLM'er omfatter adversarielle eksempler designede prompts, der udløser usikre outputs eller omgår sikkerhedsfiltre.

Hvordan forholder adversarial ML sig til LLM-sikkerhed?

LLM-sikkerhed er en specialiseret anvendelse af adversarial ML-principper. Prompt injection og jailbreaking er adversarielle angreb på LLM'er — designede inputs skabt til at forårsage forkert eller skadelig adfærd. Adversarielle suffikser (beregnede strenge, der pålideligt jailbreaker modeller) er en direkte anvendelse af klassisk adversariel eksempelforskning på sprogmodeller.

Hvad er adversarial training?

Adversarial training er en forsvarsteknik, der forbedrer modelrobusthed ved at inkludere adversarielle eksempler i træningsdatasættet. Modellen lærer at håndtere inputs korrekt, der tidligere var adversarielle. For LLM'er er dette inkorporeret i sikkerhedsaligneringstræning — modeller trænes på eksempler på angreb for at lære at modstå dem.

Test dit AI-systems adversarielle robusthed

Adversarielle sårbarheder i AI-chatbots går ud over klassiske ML-angreb. Vores vurderinger dækker prompt injection, jailbreaking og alle LLM-specifikke adversarielle teknikker.

Lær mere

Generativt Adversarialt Netværk (GAN)
Generativt Adversarialt Netværk (GAN)

Generativt Adversarialt Netværk (GAN)

Et Generativt Adversarialt Netværk (GAN) er en maskinlæringsramme med to neurale netværk—en generator og en diskriminator—der konkurrerer om at generere data, s...

7 min læsning
GAN Generative AI +5
Modelrobusthed
Modelrobusthed

Modelrobusthed

Modelrobusthed refererer til en maskinlæringsmodels (ML) evne til at opretholde ensartet og nøjagtig ydeevne på trods af variationer og usikkerheder i inputdata...

5 min læsning
AI Machine Learning +4