Învățarea Automată
Învățarea automată (ML) este o subramură a inteligenței artificiale (IA) care permite mașinilor să învețe din date, să identifice tipare, să facă predicții și s...

Învățarea automată adversarială studiază atacurile care manipulează deliberat intrările modelelor AI pentru a provoca ieșiri incorecte, precum și apărările împotriva acestora. Tehnicile variază de la perturbări imperceptibile ale imaginilor care păcălesc clasificatorii până la prompturi text elaborate care deturnează comportamentul LLM-urilor.
Învățarea automată adversarială este studiul atacurilor care determină modelele AI să producă ieșiri incorecte, nesigure sau neintenționate prin manipularea deliberată a intrărilor lor. Aceasta cuprinde atât tehnicile de atac care exploatează vulnerabilitățile modelelor, cât și abordările defensive care fac modelele mai robuste împotriva lor.
ML-ul adversarial a apărut din cercetarea în domeniul viziunii artificiale la începutul anilor 2010, când cercetătorii au descoperit că adăugarea de perturbări imperceptibil de mici la imagini putea determina clasificatorii de ultimă generație să le clasifice greșit cu încredere mare. O pandă devine un gibon; un semn de oprire devine un semn de limitare a vitezei — cu modificări de pixeli invizibile pentru observatorii umani.
Această descoperire a dezvăluit că rețelele neuronale, în ciuda performanței lor impresionante, învață modele statistice care pot fi exploatate, mai degrabă decât o înțelegere semantică robustă. Același principiu de bază — că modelele pot fi păcălite sistematic prin intrări concepute cu atenție — se aplică tuturor modalităților AI, inclusiv modelelor de limbaj.
Modelul este atacat în timpul inferenței cu intrări concepute pentru a provoca clasificare greșită sau comportament neașteptat. În viziunea artificială, acestea sunt imagini adversariale. În NLP și LLM-uri, atacurile de evaziune includ:
Modelul sau sursele sale de date sunt atacate în timpul antrenamentului sau recuperării. Exemplele includ:
Adversarii folosesc interogări repetate pentru a extrage informații despre limitele de decizie ale unui model, pentru a reconstitui datele de antrenament sau pentru a replica capabilitățile modelului — o amenințare de informații competitive pentru sistemele AI proprietare.
Atacatorii determină dacă anumite date au fost folosite în antrenament, expunând potențial dacă informații personale sensibile au fost incluse în seturile de date de antrenament.
Modelele mari de limbaj se confruntă cu atacuri adversariale care sunt distincte de exemplele adversariale ML clasice:
Atacurile în limbaj natural sunt lizibile pentru oameni. Spre deosebire de perturbările de imagini (modificări imperceptibile ale pixelilor), atacurile adversariale eficiente asupra LLM-urilor folosesc adesea limbaj natural coerent — ceea ce le face mult mai greu de distins de intrările legitime.
Suprafața de atac este interfața de instrucțiuni. LLM-urile sunt concepute pentru a urma instrucțiuni. Atacurile adversariale exploatează acest lucru prin elaborarea de intrări care arată ca instrucțiuni legitime pentru model, dar care ating obiectivele atacatorului.
Atacurile bazate pe gradient sunt viabile. Pentru modelele cu acces open-source sau white-box, atacatorii pot calcula sufixe adversariale folosind coborârea gradientului — aceeași tehnică folosită pentru a găsi perturbări adversariale ale imaginilor. Cercetările au demonstrat că aceste șiruri de caractere calculate se transferă surprinzător de bine la modelele proprietare.
Analogie cu ingineria socială. Multe atacuri adversariale asupra LLM-urilor seamănă mai mult cu ingineria socială decât cu atacurile ML clasice — exploatând tendințele modelului către utilitate, consecvență și conformitate cu autoritatea.
Includerea exemplelor adversariale în antrenament îmbunătățește robustețea. Antrenamentul de aliniere a siguranței pentru LLM-uri încorporează exemple de încercări de injectare de prompturi și jailbreaking, învățând modelele să le reziste. Cu toate acestea, această dinamică a cursei înarmărilor înseamnă că noi atacuri apar în mod regulat care ocolesc antrenamentul actual.
Tehnicile de verificare formală oferă garanții matematice că un model va clasifica corect intrările într-o anumită limită de perturbație. În prezent limitate la modele mai mici și domenii de intrare mai simple, dar este o zonă de cercetare activă.
Igienizarea intrărilor pentru a elimina sau neutraliza componentele adversariale potențiale înainte ca acestea să ajungă la model. Pentru LLM-uri, aceasta include detectarea modelelor de injectare și a structurilor de intrare anormale.
Utilizarea mai multor modele și cerința de acord reduce transferabilitatea adversarială. Un atac care păcălește un model este mai puțin probabil să păcălească toate modelele dintr-un ansamblu.
Detectarea intrărilor adversariale în timpul execuției prin identificarea anomaliilor statistice sau a modelelor de comportament inconsistente cu utilizarea normală.
Pentru organizațiile care implementează chatbot-uri AI, principiile ML adversarial informează:
Vulnerabilitățile adversariale în chatbot-urile AI depășesc atacurile ML clasice. Evaluările noastre acoperă injectarea de prompturi, jailbreaking-ul și toate tehnicile adversariale specifice LLM-urilor.
Învățarea automată (ML) este o subramură a inteligenței artificiale (IA) care permite mașinilor să învețe din date, să identifice tipare, să facă predicții și s...
Eroarea de antrenare în AI și învățarea automată reprezintă discrepanța dintre predicțiile unui model și valorile reale în timpul antrenării. Este o metrică che...
Descoperă importanța acurateței și stabilității modelelor AI în învățarea automată. Află cum aceste metrici influențează aplicații precum detectarea fraudei, di...
Consimțământ Cookie
Folosim cookie-uri pentru a vă îmbunătăți experiența de navigare și a analiza traficul nostru. See our privacy policy.