
Sicurezza LLM
La sicurezza LLM comprende le pratiche, le tecniche e i controlli utilizzati per proteggere i deployment di large language model da una classe unica di minacce ...

Il machine learning adversariale studia gli attacchi che manipolano deliberatamente gli input dei modelli AI per causare output errati, e le difese contro di essi. Le tecniche spaziano da perturbazioni impercettibili delle immagini che ingannano i classificatori a prompt di testo creati ad hoc che dirottano il comportamento degli LLM.
Il machine learning adversariale è lo studio degli attacchi che causano la produzione di output errati, non sicuri o non intenzionali da parte dei modelli AI manipolando deliberatamente i loro input. Comprende sia le tecniche di attacco che sfruttano le vulnerabilità del modello sia gli approcci difensivi che rendono i modelli più robusti contro di esse.
Il ML adversariale è emerso dalla ricerca sulla computer vision all’inizio degli anni 2010, quando i ricercatori hanno scoperto che aggiungere perturbazioni impercettibilmente piccole alle immagini poteva causare la classificazione errata da parte di classificatori all’avanguardia con alta confidenza. Un panda diventa un gibbone; un segnale di stop diventa un segnale di limite di velocità — con modifiche ai pixel invisibili agli osservatori umani.
Questa scoperta ha rivelato che le reti neurali, nonostante le loro prestazioni impressionanti, apprendono pattern statistici che possono essere sfruttati piuttosto che una comprensione semantica robusta. Lo stesso principio sottostante — che i modelli possono essere sistematicamente ingannati da input progettati con cura — si applica a tutte le modalità AI, inclusi i modelli linguistici.
Il modello viene attaccato al momento dell’inferenza con input progettati per causare classificazioni errate o comportamenti inaspettati. Nella computer vision, questi sono immagini adversariali. Nel NLP e negli LLM, gli attacchi di evasione includono:
Il modello o le sue fonti di dati vengono attaccati durante l’addestramento o il recupero. Gli esempi includono:
Gli avversari utilizzano query ripetute per estrarre informazioni sui confini decisionali di un modello, ricostruire i dati di addestramento o replicare le capacità del modello — una minaccia di intelligence competitiva per i sistemi AI proprietari.
Gli attaccanti determinano se dati specifici sono stati utilizzati nell’addestramento, potenzialmente esponendo se informazioni personali sensibili sono state incluse nei dataset di addestramento.
I modelli linguistici di grandi dimensioni affrontano attacchi adversariali che sono distinti dagli esempi adversariali ML classici:
Gli attacchi in linguaggio naturale sono leggibili dall’uomo. A differenza delle perturbazioni delle immagini (modifiche impercettibili dei pixel), gli attacchi adversariali efficaci agli LLM spesso utilizzano linguaggio naturale coerente — rendendoli molto più difficili da distinguere dagli input legittimi.
La superficie di attacco è l’interfaccia delle istruzioni. Gli LLM sono progettati per seguire le istruzioni. Gli attacchi adversariali sfruttano questo creando input che sembrano istruzioni legittime per il modello ma raggiungono obiettivi dell’attaccante.
Gli attacchi basati su gradienti sono praticabili. Per modelli open-source o con accesso white-box, gli attaccanti possono calcolare suffissi adversariali utilizzando la discesa del gradiente — la stessa tecnica utilizzata per trovare perturbazioni adversariali delle immagini. La ricerca ha dimostrato che queste stringhe computate si trasferiscono sorprendentemente bene ai modelli proprietari.
Analogo all’ingegneria sociale. Molti attacchi adversariali agli LLM assomigliano più all’ingegneria sociale che agli attacchi ML classici — sfruttando le tendenze del modello verso l’utilità, la coerenza e la conformità all’autorità.
Includere esempi adversariali nell’addestramento migliora la robustezza. L’addestramento di allineamento alla sicurezza per gli LLM incorpora esempi di tentativi di prompt injection e jailbreaking, insegnando ai modelli a resistervi. Tuttavia, questa dinamica di corsa agli armamenti significa che emergono regolarmente nuovi attacchi che aggirano l’addestramento attuale.
Le tecniche di verifica formale forniscono garanzie matematiche che un modello classificherà correttamente gli input entro un certo limite di perturbazione. Attualmente limitato a modelli più piccoli e domini di input più semplici, ma è un’area di ricerca attiva.
Sanificazione degli input per rimuovere o neutralizzare componenti potenzialmente adversariali prima che raggiungano il modello. Per gli LLM, questo include il rilevamento di pattern di injection e strutture di input anomale.
L’utilizzo di più modelli e la richiesta di accordo riduce la trasferibilità adversariale. Un attacco che inganna un modello ha meno probabilità di ingannare tutti i modelli in un ensemble.
Rilevamento di input adversariali in tempo reale identificando anomalie statistiche o pattern comportamentali incoerenti con l’uso normale.
Per le organizzazioni che distribuiscono chatbot AI, i principi del ML adversariale informano:
Le vulnerabilità adversariali nei chatbot AI vanno oltre gli attacchi ML classici. Le nostre valutazioni coprono prompt injection, jailbreaking e tutte le tecniche adversariali specifiche per gli LLM.

La sicurezza LLM comprende le pratiche, le tecniche e i controlli utilizzati per proteggere i deployment di large language model da una classe unica di minacce ...

Scopri come la ricerca più recente di OpenAI identifica perché i modelli linguistici allucinano e producono false affermazioni con grande sicurezza. Scopri le c...

L’errore di addestramento nell’IA e nel machine learning è la discrepanza tra le previsioni di un modello e i risultati effettivi durante l’addestramento. È una...
Consenso Cookie
Usiamo i cookie per migliorare la tua esperienza di navigazione e analizzare il nostro traffico. See our privacy policy.