
Rete Generativa Avversaria (GAN)
Una Rete Generativa Avversaria (GAN) è un framework di apprendimento automatico con due reti neurali—un generatore e un discriminatore—che competono per generar...

Il machine learning adversariale studia gli attacchi che manipolano deliberatamente gli input dei modelli AI per causare output errati, e le difese contro di essi. Le tecniche spaziano da perturbazioni impercettibili delle immagini che ingannano i classificatori a prompt di testo creati ad hoc che dirottano il comportamento degli LLM.
Il machine learning adversariale è lo studio degli attacchi che causano la produzione di output errati, non sicuri o non intenzionali da parte dei modelli AI manipolando deliberatamente i loro input. Comprende sia le tecniche di attacco che sfruttano le vulnerabilità del modello sia gli approcci difensivi che rendono i modelli più robusti contro di esse.
Il ML adversariale è emerso dalla ricerca sulla computer vision all’inizio degli anni 2010, quando i ricercatori hanno scoperto che aggiungere perturbazioni impercettibilmente piccole alle immagini poteva causare la classificazione errata da parte di classificatori all’avanguardia con alta confidenza. Un panda diventa un gibbone; un segnale di stop diventa un segnale di limite di velocità — con modifiche ai pixel invisibili agli osservatori umani.
Questa scoperta ha rivelato che le reti neurali, nonostante le loro prestazioni impressionanti, apprendono pattern statistici che possono essere sfruttati piuttosto che una comprensione semantica robusta. Lo stesso principio sottostante — che i modelli possono essere sistematicamente ingannati da input progettati con cura — si applica a tutte le modalità AI, inclusi i modelli linguistici.
Il modello viene attaccato al momento dell’inferenza con input progettati per causare classificazioni errate o comportamenti inaspettati. Nella computer vision, questi sono immagini adversariali. Nel NLP e negli LLM, gli attacchi di evasione includono:
Il modello o le sue fonti di dati vengono attaccati durante l’addestramento o il recupero. Gli esempi includono:
Gli avversari utilizzano query ripetute per estrarre informazioni sui confini decisionali di un modello, ricostruire i dati di addestramento o replicare le capacità del modello — una minaccia di intelligence competitiva per i sistemi AI proprietari.
Gli attaccanti determinano se dati specifici sono stati utilizzati nell’addestramento, potenzialmente esponendo se informazioni personali sensibili sono state incluse nei dataset di addestramento.
I modelli linguistici di grandi dimensioni affrontano attacchi adversariali che sono distinti dagli esempi adversariali ML classici:
Gli attacchi in linguaggio naturale sono leggibili dall’uomo. A differenza delle perturbazioni delle immagini (modifiche impercettibili dei pixel), gli attacchi adversariali efficaci agli LLM spesso utilizzano linguaggio naturale coerente — rendendoli molto più difficili da distinguere dagli input legittimi.
La superficie di attacco è l’interfaccia delle istruzioni. Gli LLM sono progettati per seguire le istruzioni. Gli attacchi adversariali sfruttano questo creando input che sembrano istruzioni legittime per il modello ma raggiungono obiettivi dell’attaccante.
Gli attacchi basati su gradienti sono praticabili. Per modelli open-source o con accesso white-box, gli attaccanti possono calcolare suffissi adversariali utilizzando la discesa del gradiente — la stessa tecnica utilizzata per trovare perturbazioni adversariali delle immagini. La ricerca ha dimostrato che queste stringhe computate si trasferiscono sorprendentemente bene ai modelli proprietari.
Analogo all’ingegneria sociale. Molti attacchi adversariali agli LLM assomigliano più all’ingegneria sociale che agli attacchi ML classici — sfruttando le tendenze del modello verso l’utilità, la coerenza e la conformità all’autorità.
Includere esempi adversariali nell’addestramento migliora la robustezza. L’addestramento di allineamento alla sicurezza per gli LLM incorpora esempi di tentativi di prompt injection e jailbreaking, insegnando ai modelli a resistervi. Tuttavia, questa dinamica di corsa agli armamenti significa che emergono regolarmente nuovi attacchi che aggirano l’addestramento attuale.
Le tecniche di verifica formale forniscono garanzie matematiche che un modello classificherà correttamente gli input entro un certo limite di perturbazione. Attualmente limitato a modelli più piccoli e domini di input più semplici, ma è un’area di ricerca attiva.
Sanificazione degli input per rimuovere o neutralizzare componenti potenzialmente adversariali prima che raggiungano il modello. Per gli LLM, questo include il rilevamento di pattern di injection e strutture di input anomale.
L’utilizzo di più modelli e la richiesta di accordo riduce la trasferibilità adversariale. Un attacco che inganna un modello ha meno probabilità di ingannare tutti i modelli in un ensemble.
Rilevamento di input adversariali in tempo reale identificando anomalie statistiche o pattern comportamentali incoerenti con l’uso normale.
Per le organizzazioni che distribuiscono chatbot AI, i principi del ML adversariale informano:
Gli esempi adversariali sono input accuratamente creati per ingannare un modello di machine learning e fargli fare previsioni errate. Per i classificatori di immagini, potrebbe essere un'immagine con modifiche impercettibili dei pixel che causa una classificazione errata. Per gli LLM, gli esempi adversariali includono prompt creati ad hoc che innescano output non sicuri o aggirano i filtri di sicurezza.
La sicurezza degli LLM è un'applicazione specializzata dei principi del ML adversariale. Il prompt injection e il jailbreaking sono attacchi adversariali agli LLM — input creati ad hoc per causare comportamenti errati o dannosi. I suffissi adversariali (stringhe computate che violano in modo affidabile i modelli) sono un'applicazione diretta della ricerca classica sugli esempi adversariali ai modelli linguistici.
L'addestramento adversariale è una tecnica di difesa che migliora la robustezza del modello includendo esempi adversariali nel dataset di addestramento. Il modello impara a gestire correttamente gli input che erano precedentemente adversariali. Per gli LLM, questo viene incorporato nell'addestramento di allineamento alla sicurezza — i modelli vengono addestrati su esempi di attacchi per imparare a resistervi.
Le vulnerabilità adversariali nei chatbot AI vanno oltre gli attacchi ML classici. Le nostre valutazioni coprono prompt injection, jailbreaking e tutte le tecniche adversariali specifiche per gli LLM.

Una Rete Generativa Avversaria (GAN) è un framework di apprendimento automatico con due reti neurali—un generatore e un discriminatore—che competono per generar...

Il model drift, o decadimento del modello, si riferisce al declino delle prestazioni predittive di un modello di machine learning nel tempo a causa di cambiamen...

La robustezza del modello si riferisce alla capacità di un modello di apprendimento automatico (ML) di mantenere prestazioni coerenti e accurate nonostante le v...