
Maskinlæring
Maskinlæring (ML) er en underkategori av kunstig intelligens (AI) som gjør det mulig for maskiner å lære fra data, identifisere mønstre, lage prediksjoner og fo...

Adversarial maskinlæring studerer angrep som bevisst manipulerer AI-modellinndata for å forårsake uriktige resultater, og forsvarene mot dem. Teknikkene spenner fra umerkelige bildeforstyrrelser som lurer klassifiserere til utformede tekstprompter som kaprer LLM-atferd.
Adversarial maskinlæring er studiet av angrep som får AI-modeller til å produsere uriktige, utrygge eller utilsiktede resultater ved bevisst å manipulere inndataene deres. Det omfatter både angrepsteknikkene som utnytter modellsårbarheter og de defensive tilnærmingene som gjør modeller mer robuste mot dem.
Adversarial ML dukket opp fra datasynsforskning tidlig på 2010-tallet, da forskere oppdaget at å legge til umerkelig små forstyrrelser til bilder kunne få toppmoderne klassifiserere til å feilklassifisere dem med høy sikkerhet. En panda blir en gibbon; et stoppskilt blir et fartsgrenseskilt — med pikselendringer usynlige for menneskelige observatører.
Denne oppdagelsen avslørte at nevrale nettverk, til tross for deres imponerende ytelse, lærer statistiske mønstre som kan utnyttes i stedet for robust semantisk forståelse. Det samme underliggende prinsippet — at modeller systematisk kan lures av nøye designede inndata — gjelder på tvers av alle AI-modaliteter, inkludert språkmodeller.
Modellen angripes ved inferenstidspunktet med inndata designet for å forårsake feilklassifisering eller uventet atferd. I datasyn er disse adversariale bilder. I NLP og LLM-er inkluderer unnvikelsesangrep:
Modellen eller dens datakilder angripes under trening eller gjenfinning. Eksempler inkluderer:
Motstandere bruker gjentatte spørringer for å trekke ut informasjon om en modells beslutningsgrenser, rekonstruere treningsdata eller replikere modellkapabiliteter — en konkurranseintelligenstrue for proprietære AI-systemer.
Angripere bestemmer om spesifikke data ble brukt i trening, og avslører potensielt om sensitiv personlig informasjon var inkludert i treningsdatasett.
Store språkmodeller møter adversariale angrep som er distinkte fra klassiske ML adversariale eksempler:
Naturlige språkangrep er menneskelig lesbare. I motsetning til bildeforstyrrelser (umerkelige pikselendringer), bruker effektive LLM adversariale angrep ofte koherent naturlig språk — noe som gjør dem mye vanskeligere å skille fra legitime inndata.
Angrepsflaten er instruksjonsgrensesnittet. LLM-er er designet for å følge instruksjoner. Adversariale angrep utnytter dette ved å utforme inndata som ser ut som legitime instruksjoner for modellen, men oppnår angriperens mål.
Gradientbaserte angrep er levedyktige. For åpen kildekode eller white-box tilgangsmodeller kan angripere beregne adversariale suffikser ved hjelp av gradientnedstigning — den samme teknikken som brukes til å finne adversariale bildeforstyrrelser. Forskning har demonstrert at disse beregnede strengene overføres overraskende godt til proprietære modeller.
Analog til sosial manipulering. Mange LLM adversariale angrep ligner sosial manipulering mer enn klassiske ML-angrep — ved å utnytte modelltendenser mot hjelpesomhet, konsistens og autoritetsetterlevelse.
Å inkludere adversariale eksempler i trening forbedrer robusthet. Sikkerhetsjusteringstrening for LLM-er innlemmer eksempler på prompt injection og jailbreaking-forsøk, og lærer modeller å motstå dem. Imidlertid betyr denne kapprustningsdynamikken at nye angrep regelmessig dukker opp som omgår nåværende trening.
Formelle verifikasjonsteknikker gir matematiske garantier for at en modell vil klassifisere inndata korrekt innenfor en viss forstyrrelsesbegrensning. For øyeblikket begrenset til mindre modeller og enklere inndata-domener, men et aktivt forskningsområde.
Sanering av inndata for å fjerne eller nøytralisere potensielle adversariale komponenter før de når modellen. For LLM-er inkluderer dette deteksjon av injeksjonsmønstre og anomale inndatastrukturer.
Bruk av flere modeller og krav om enighet reduserer adversarial overførbarhet. Et angrep som lurer én modell er mindre sannsynlig å lure alle modeller i et ensemble.
Deteksjon av adversariale inndata ved kjøretid ved å identifisere statistiske anomalier eller atferdsmønstre som er inkonsistente med normal bruk.
For organisasjoner som distribuerer AI-chatboter, informerer adversarial ML-prinsipper:
Adversariale sårbarheter i AI-chatboter går utover klassiske ML-angrep. Våre vurderinger dekker prompt injection, jailbreaking og alle LLM-spesifikke adversariale teknikker.

Maskinlæring (ML) er en underkategori av kunstig intelligens (AI) som gjør det mulig for maskiner å lære fra data, identifisere mønstre, lage prediksjoner og fo...

Utforsk smisking i AI-modeller—når AI-systemer prioriterer brukerens godkjennelse fremfor nøyaktighet. Lær hvorfor dette skjer, hvilke konsekvenser det har i pr...

RAG-forgiftningsangrep kontaminerer kunnskapsbasen til gjenfinnings-utvidede AI-systemer, noe som får chatboter til å levere angriperkontrollert innhold til bru...
Informasjonskapselsamtykke
Vi bruker informasjonskapsler for å forbedre din surfeopplevelse og analysere vår trafikk. See our privacy policy.