
Aliharjoittelu
Aliharjoittelu tapahtuu, kun koneoppimismalli on liian yksinkertainen havaitakseen datan taustalla olevat trendit, joihin se on opetettu. Tämä johtaa heikkoon s...

Adversarial machine learning tutkii hyökkäyksiä, jotka tarkoituksellisesti manipuloivat tekoälymallien syötteitä aiheuttaen virheellisiä tuloksia, sekä puolustuskeinoja niitä vastaan. Tekniikat vaihtelevat huomaamattomista kuvahäiriöistä, jotka huijaavat luokittelijoita, muokattuihin tekstikehotteisiin, jotka kaappaavat LLM-käyttäytymisen.
Adversarial machine learning on tutkimusala, joka keskittyy hyökkäyksiin, jotka saavat tekoälymallit tuottamaan virheellisiä, turvattomia tai tahattomia tuloksia manipuloimalla tarkoituksellisesti niiden syötteitä. Se kattaa sekä hyökkäystekniikat, jotka hyödyntävät mallien haavoittuvuuksia, että puolustusstrategiat, jotka tekevät malleista robustimpia niitä vastaan.
Adversarial ML syntyi tietokonenäkötutkimuksesta 2010-luvun alussa, kun tutkijat havaitsivat, että lisäämällä huomaamattoman pieniä häiriöitä kuviin voitiin saada huippuluokan luokittelijat luokittelemaan ne väärin suurella luottamuksella. Pandasta tulee gibbon; pysäytyskilvestä tulee nopeusrajoitusmerkki — pikselimuutoksilla, jotka ovat näkymättömiä ihmisille.
Tämä havainto paljasti, että neuroverkot oppivat huolimatta vaikuttavasta suorituskyvystään tilastollisia malleja, joita voidaan hyödyntää, sen sijaan että ne oppivat vankkaa semanttista ymmärrystä. Sama perusperiaate — että malleja voidaan systemaattisesti huijata huolellisesti suunnitelluilla syötteillä — pätee kaikkiin tekoälymodaliteetteihin, mukaan lukien kielimallit.
Mallia hyökätään päättelyaikana syötteillä, jotka on suunniteltu aiheuttamaan virheellinen luokittelu tai odottamaton käyttäytyminen. Tietokonenäössä nämä ovat adversarial-kuvia. NLP:ssä ja LLM:issä kiertohyökkäykset sisältävät:
Mallia tai sen tietolähteitä hyökätään koulutuksen tai haun aikana. Esimerkkejä:
Hyökkääjät käyttävät toistuvia kyselyitä poimiakseen tietoa mallin päätösrajoista, rekonstruoidakseen koulutusaineistoa tai kopioidakseen mallin kyvykkyyksiä — kilpailutiedustelun uhka omistusoikeudellisille tekoälyjärjestelmille.
Hyökkääjät määrittävät, käytettiinkö tiettyjä tietoja koulutuksessa, mikä voi paljastaa, sisältyikö arkaluonteista henkilötietoa koulutusaineistoihin.
Suuret kielimallit kohtaavat adversarial-hyökkäyksiä, jotka eroavat klassisista ML adversarial-esimerkeistä:
Luonnollisen kielen hyökkäykset ovat ihmisen luettavissa. Toisin kuin kuvahäiriöt (huomaamattomat pikselimuutokset), tehokkaat LLM adversarial-hyökkäykset käyttävät usein johdonmukaista luonnollista kieltä — mikä tekee niistä paljon vaikeampia erottaa laillisista syötteistä.
Hyökkäyspinta on ohjekäyttöliittymä. LLM:t on suunniteltu noudattamaan ohjeita. Adversarial-hyökkäykset hyödyntävät tätä muokkaamalla syötteitä, jotka näyttävät mallille laillisilta ohjeiltaan, mutta saavuttavat hyökkääjän tavoitteet.
Gradientteihin perustuvat hyökkäykset ovat toteuttamiskelpoisia. Avoimen lähdekoodin tai white-box-mallien kohdalla hyökkääjät voivat laskea adversarial-suffikseja käyttäen gradienttilaskeutumista — samaa tekniikkaa, jota käytetään adversarial-kuvahäiriöiden löytämiseen. Tutkimus on osoittanut, että nämä lasketut merkkijonot siirtyvät yllättävän hyvin omistusoikeudellisiin malleihin.
Sosiaalisen manipuloinnin analogia. Monet LLM adversarial-hyökkäykset muistuttavat enemmän sosiaalista manipulointia kuin klassisia ML-hyökkäyksiä — hyödyntäen mallin taipumuksia avuliaisuuteen, johdonmukaisuuteen ja auktoriteettien noudattamiseen.
Adversarial-esimerkkien sisällyttäminen koulutukseen parantaa robustisuutta. Turvallisuuden yhdenmukaistamiskoulutus LLM:ille sisältää esimerkkejä prompt injection- ja jailbreaking-yrityksistä opettaen malleja vastustamaan niitä. Tämä kilpavarustelun dynamiikka tarkoittaa kuitenkin, että uusia hyökkäyksiä ilmaantuu säännöllisesti, jotka ohittavat nykyisen koulutuksen.
Muodolliset todentamistekniikat tarjoavat matemaattisia takeita siitä, että malli luokittelee oikein syötteitä tietyn häiriörajan sisällä. Tällä hetkellä rajoittuu pienempiin malleihin ja yksinkertaisempiin syöteympäristöihin, mutta on aktiivinen tutkimusalue.
Syötteiden puhdistaminen poistamaan tai neutralisoimaan mahdolliset adversarial-komponentit ennen kuin ne saavuttavat mallin. LLM:ille tämä sisältää injection-mallien ja poikkeavien syöterakenteiden havaitsemisen.
Useiden mallien käyttäminen ja yksimielisyyden vaatiminen vähentää adversarial-siirrettävyyttä. Hyökkäys, joka huijaa yhden mallin, ei todennäköisesti huijaa kaikkia ensemble-malleja.
Adversarial-syötteiden havaitseminen ajonaikaisesti tunnistamalla tilastollisia poikkeamia tai käyttäytymismalleja, jotka ovat epäjohdonmukaisia normaalin käytön kanssa.
Adversarial-haavoittuvuudet tekoälychateissa ylittävät klassisen koneoppimisen hyökkäykset. Arviointimme kattavat prompt injection -hyökkäykset, jailbreakingin ja kaikki LLM-spesifiset adversarial-tekniikat.

Aliharjoittelu tapahtuu, kun koneoppimismalli on liian yksinkertainen havaitakseen datan taustalla olevat trendit, joihin se on opetettu. Tämä johtaa heikkoon s...

Kattava tekninen opas OWASP LLM Top 10 -viitekehykseen — kattaa kaikki 10 haavoittuvuusluokkaa todellisilla hyökkäysesimerkeillä, vakavuuskontekstilla ja konkre...

AI-chatbottien jailbreaking ohittaa turvallisuussuojakaiteet saadakseen mallin toimimaan sen suunniteltujen rajojen ulkopuolella. Opi yleisimmät tekniikat — DAN...
Evästeiden Suostumus
Käytämme evästeitä parantaaksemme selauskokemustasi ja analysoidaksemme liikennettämme. See our privacy policy.