Rețea Generativă Adversarială (GAN)
O Rețea Generativă Adversarială (GAN) este un cadru de învățare automată cu două rețele neuronale—un generator și un discriminator—care concurează pentru a gene...

Învățarea automată adversarială studiază atacurile care manipulează deliberat intrările modelelor AI pentru a provoca ieșiri incorecte, precum și apărările împotriva acestora. Tehnicile variază de la perturbări imperceptibile ale imaginilor care păcălesc clasificatorii până la prompturi text elaborate care deturnează comportamentul LLM-urilor.
Învățarea automată adversarială este studiul atacurilor care determină modelele AI să producă ieșiri incorecte, nesigure sau neintenționate prin manipularea deliberată a intrărilor lor. Aceasta cuprinde atât tehnicile de atac care exploatează vulnerabilitățile modelelor, cât și abordările defensive care fac modelele mai robuste împotriva lor.
ML-ul adversarial a apărut din cercetarea în domeniul viziunii artificiale la începutul anilor 2010, când cercetătorii au descoperit că adăugarea de perturbări imperceptibil de mici la imagini putea determina clasificatorii de ultimă generație să le clasifice greșit cu încredere mare. O pandă devine un gibon; un semn de oprire devine un semn de limitare a vitezei — cu modificări de pixeli invizibile pentru observatorii umani.
Această descoperire a dezvăluit că rețelele neuronale, în ciuda performanței lor impresionante, învață modele statistice care pot fi exploatate, mai degrabă decât o înțelegere semantică robustă. Același principiu de bază — că modelele pot fi păcălite sistematic prin intrări concepute cu atenție — se aplică tuturor modalităților AI, inclusiv modelelor de limbaj.
Modelul este atacat în timpul inferenței cu intrări concepute pentru a provoca clasificare greșită sau comportament neașteptat. În viziunea artificială, acestea sunt imagini adversariale. În NLP și LLM-uri, atacurile de evaziune includ:
Modelul sau sursele sale de date sunt atacate în timpul antrenamentului sau recuperării. Exemplele includ:
Adversarii folosesc interogări repetate pentru a extrage informații despre limitele de decizie ale unui model, pentru a reconstitui datele de antrenament sau pentru a replica capabilitățile modelului — o amenințare de informații competitive pentru sistemele AI proprietare.
Atacatorii determină dacă anumite date au fost folosite în antrenament, expunând potențial dacă informații personale sensibile au fost incluse în seturile de date de antrenament.
Modelele mari de limbaj se confruntă cu atacuri adversariale care sunt distincte de exemplele adversariale ML clasice:
Atacurile în limbaj natural sunt lizibile pentru oameni. Spre deosebire de perturbările de imagini (modificări imperceptibile ale pixelilor), atacurile adversariale eficiente asupra LLM-urilor folosesc adesea limbaj natural coerent — ceea ce le face mult mai greu de distins de intrările legitime.
Suprafața de atac este interfața de instrucțiuni. LLM-urile sunt concepute pentru a urma instrucțiuni. Atacurile adversariale exploatează acest lucru prin elaborarea de intrări care arată ca instrucțiuni legitime pentru model, dar care ating obiectivele atacatorului.
Atacurile bazate pe gradient sunt viabile. Pentru modelele cu acces open-source sau white-box, atacatorii pot calcula sufixe adversariale folosind coborârea gradientului — aceeași tehnică folosită pentru a găsi perturbări adversariale ale imaginilor. Cercetările au demonstrat că aceste șiruri de caractere calculate se transferă surprinzător de bine la modelele proprietare.
Analogie cu ingineria socială. Multe atacuri adversariale asupra LLM-urilor seamănă mai mult cu ingineria socială decât cu atacurile ML clasice — exploatând tendințele modelului către utilitate, consecvență și conformitate cu autoritatea.
Includerea exemplelor adversariale în antrenament îmbunătățește robustețea. Antrenamentul de aliniere a siguranței pentru LLM-uri încorporează exemple de încercări de injectare de prompturi și jailbreaking, învățând modelele să le reziste. Cu toate acestea, această dinamică a cursei înarmărilor înseamnă că noi atacuri apar în mod regulat care ocolesc antrenamentul actual.
Tehnicile de verificare formală oferă garanții matematice că un model va clasifica corect intrările într-o anumită limită de perturbație. În prezent limitate la modele mai mici și domenii de intrare mai simple, dar este o zonă de cercetare activă.
Igienizarea intrărilor pentru a elimina sau neutraliza componentele adversariale potențiale înainte ca acestea să ajungă la model. Pentru LLM-uri, aceasta include detectarea modelelor de injectare și a structurilor de intrare anormale.
Utilizarea mai multor modele și cerința de acord reduce transferabilitatea adversarială. Un atac care păcălește un model este mai puțin probabil să păcălească toate modelele dintr-un ansamblu.
Detectarea intrărilor adversariale în timpul execuției prin identificarea anomaliilor statistice sau a modelelor de comportament inconsistente cu utilizarea normală.
Pentru organizațiile care implementează chatbot-uri AI, principiile ML adversarial informează:
Exemplele adversariale sunt intrări elaborate cu atenție, concepute pentru a păcăli un model de învățare automată să facă predicții incorecte. Pentru clasificatorii de imagini, acesta ar putea fi o imagine cu modificări imperceptibile ale pixelilor care provoacă clasificarea greșită. Pentru LLM-uri, exemplele adversariale includ prompturi elaborate care declanșează ieșiri nesigure sau ocolesc filtrele de siguranță.
Securitatea LLM este o aplicație specializată a principiilor ML adversarial. Injectarea de prompturi și jailbreaking-ul sunt atacuri adversariale asupra LLM-urilor — intrări elaborate concepute pentru a provoca comportament incorect sau dăunător. Sufixele adversariale (șiruri de caractere calculate care efectuează jailbreaking în mod fiabil al modelelor) sunt o aplicare directă a cercetării clasice asupra exemplelor adversariale la modelele de limbaj.
Antrenamentul adversarial este o tehnică de apărare care îmbunătățește robustețea modelului prin includerea exemplelor adversariale în setul de date de antrenament. Modelul învață să gestioneze corect intrările care erau anterior adversariale. Pentru LLM-uri, aceasta este încorporată în antrenamentul de aliniere a siguranței — modelele sunt antrenate pe exemple de atacuri pentru a învăța să le reziste.
Vulnerabilitățile adversariale în chatbot-urile AI depășesc atacurile ML clasice. Evaluările noastre acoperă injectarea de prompturi, jailbreaking-ul și toate tehnicile adversariale specifice LLM-urilor.
O Rețea Generativă Adversarială (GAN) este un cadru de învățare automată cu două rețele neuronale—un generator și un discriminator—care concurează pentru a gene...
Învățarea automată (ML) este o subramură a inteligenței artificiale (IA) care permite mașinilor să învețe din date, să identifice tipare, să facă predicții și s...
Robustețea modelului se referă la capacitatea unui model de învățare automată (ML) de a menține performanțe consecvente și precise, în ciuda variațiilor și ince...