
Jailbreaking dei Chatbot AI: Tecniche, Esempi e Difese
Il jailbreaking dei chatbot AI bypassa i guardrail di sicurezza per far comportare il modello al di fuori dei suoi limiti previsti. Scopri le tecniche più comun...
Il Project Glasswing di Anthropic utilizza il suo modello AI più potente per trovare migliaia di vulnerabilità zero-day nei software critici. Ecco tutto ciò che sviluppatori e professionisti della sicurezza devono sapere.
Anthropic ha appena lanciato Project Glasswing — un’iniziativa di cybersecurity che mette insieme le più grandi aziende tecnologiche del mondo con un modello AI abbastanza potente da trovare vulnerabilità nascoste nei software critici da decenni. Il modello ha già scoperto migliaia di vulnerabilità zero-day, inclusi bug in ogni principale sistema operativo e browser web.
Non si tratta di un annuncio di prodotto o di una nuova funzionalità API. È uno sforzo difensivo coordinato basato sulla premessa che gli attacchi informatici potenziati dall’AI stanno arrivando, e la migliore difesa è trovare le vulnerabilità per primi.
Project Glasswing è un’iniziativa intersettoriale di cybersecurity lanciata da Anthropic il 7 aprile 2026. La sua missione principale: utilizzare l’AI per trovare e correggere vulnerabilità nelle infrastrutture software critiche prima che gli aggressori possano sfruttarle.
L’iniziativa è alimentata da Claude Mythos Preview, il più avanzato modello frontier non ancora rilasciato di Anthropic. A differenza dei precedenti modelli Claude, Mythos possiede capacità emergenti nella scoperta di vulnerabilità e nello sviluppo di exploit che rappresentano un salto qualitativo — non derivante da un addestramento specifico sulla sicurezza, ma da miglioramenti generali nel ragionamento sul codice.
L’argomentazione di Anthropic è diretta: i modelli AI hanno raggiunto un livello di capacità tale da superare la maggior parte degli esseri umani nel trovare e sfruttare vulnerabilità software. Man mano che queste capacità si diffondono, gli attori malintenzionati vi avranno inevitabilmente accesso. Le conseguenze — per le economie, la sicurezza pubblica e la sicurezza nazionale — potrebbero essere gravi. Project Glasswing è la risposta preventiva: utilizzare quello stesso potere in modo difensivo.
I risultati sono impressionanti. Claude Mythos Preview ha già scoperto migliaia di vulnerabilità zero-day — bug rimasti non rilevati per anni, a volte decenni:
| Vulnerabilità | Software | Età | Dettagli |
|---|---|---|---|
| Overflow di interi con segno nell’implementazione SACK | OpenBSD | 27 anni | Vulnerabilità dello stack di rete |
| Exploit del codec H.264 tramite collisione del sentinel slice | FFmpeg | 16 anni | Vulnerabilità nell’elaborazione dei media |
| Corruzione della memoria guest-to-host | VMM memory-safe in produzione | — | Escape dall’hypervisor |
| Vulnerabilità multiple | Ogni principale OS e browser web | Varie | Attraverso l’intero stack |
E non si limita a trovare bug — sviluppa exploit funzionanti:
Meno dell'1% delle vulnerabilità scoperte è stato finora corretto. Anthropic utilizza una timeline di divulgazione responsabile di 90+45 giorni e hash di impegno SHA-3 per dimostrare il possesso dei dettagli delle vulnerabilità senza rivelarli.
Claude Mythos Preview non è solo incrementalmente migliore — rappresenta un salto di capacità nell’analisi della sicurezza del codice.
| Benchmark | Mythos Preview | Opus 4.6 | Delta |
|---|---|---|---|
| CyberGym (analisi vulnerabilità) | 83,1% | 66,6% | +16,5 |
| SWE-bench Pro | 77,8% | 53,4% | +24,4 |
| SWE-bench Verified | 93,9% | 80,8% | +13,1 |
| BrowseComp | 86,9% | 83,7% | +3,2 |
| GPQA Diamond (ragionamento scientifico) | 94,6% | 91,3% | +3,3 |
| Humanity’s Last Exam (senza strumenti) | 56,8% | 40,0% | +16,8 |
| Humanity’s Last Exam (con strumenti) | 64,7% | 53,1% | +11,6 |
Il divario nella sicurezza è drammatico. In un test sul corpus di OSS-Fuzz con 7.000 punti di ingresso, Mythos ha ottenuto 595 crash ai livelli 1-2, con 10 dirottamenti completi del flusso di controllo. Contro il motore JavaScript di Firefox 147, ha sviluppato 181 exploit funzionanti — rispetto ai soli 2 di Opus 4.6.
Il red team di Anthropic nota che “Opus 4.6 aveva un tasso di successo vicino allo 0% nello sviluppo autonomo di exploit.” Mythos non ha ottenuto queste capacità da un addestramento specifico sulla sicurezza — sono emerse da miglioramenti generali nel ragionamento sul codice. È questo che lo rende allo stesso tempo potente e preoccupante.
Il modello opera all’interno di uno scaffold agentico:
Non è uno scanner statico. È un agente autonomo che ragiona sul comportamento del codice, distingue tra funzionalità previste e reali, e identifica vulnerabilità logiche come bypass dell’autenticazione — non solo pattern di corruzione della memoria.
Project Glasswing non è uno strumento generico per sviluppatori. L’accesso è deliberatamente limitato:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks.
Circa 40 organizzazioni aggiuntive responsabili di infrastrutture software critiche hanno anch’esse accesso.
Se mantieni un repository pubblico con oltre 5.000 stelle su GitHub o oltre 1 milione di download mensili su NPM, puoi fare domanda attraverso il programma Claude for Open Source .
Questo è il percorso più accessibile per gli sviluppatori individuali. Il programma fornisce accesso a Claude specificamente per l’analisi della sicurezza di progetti open-source.
Un imminente Cyber Verification Program permetterà ai professionisti della sicurezza legittimi di richiedere l’accesso. I dettagli non sono ancora stati annunciati, ma probabilmente richiederà credenziali professionali o affiliazione organizzativa.
Claude Mythos Preview è disponibile in anteprima di ricerca con accesso controllato tramite Amazon Bedrock con controlli di sicurezza di livello enterprise — crittografia gestita dal cliente, isolamento VPC e logging dettagliato.
Dopo l’anteprima di ricerca, il prezzo API sarà di $25 / $125 per milione di token di input/output tramite Claude API, Amazon Bedrock, Google Vertex AI e Microsoft Foundry.
Anche se non hai accesso diretto a Project Glasswing, le sue implicazioni sono significative:
Le tue dipendenze diventeranno più sicure. Project Glasswing sta analizzando il software su cui tutto il resto è costruito — sistemi operativi, browser, codec multimediali, stack di rete, hypervisor. Le patch derivanti da questa iniziativa miglioreranno la sicurezza dell’intero ecosistema.
Il panorama delle vulnerabilità sta cambiando. L’AI può ora trovare bug che decenni di revisione umana hanno mancato. Questo alza l’asticella di cosa significhi “codice sicuro” e accelera la tempistica con cui classi di vulnerabilità note vengono scoperte e corrette.
Gli strumenti di sicurezza potenziati dall’AI stanno arrivando. Ciò che Mythos può fare oggi in un ambiente ristretto, altri modelli si avvicineranno a farlo nei prossimi anni. Pratiche e strumenti di sviluppo consapevoli della sicurezza diventeranno requisiti fondamentali.
L’open-source ne beneficia in modo sproporzionato. Anthropic ha impegnato 2,5 milioni di dollari per Alpha-Omega e OpenSSF tramite la Linux Foundation, più 1,5 milioni di dollari per la Apache Software Foundation. Insieme a 100 milioni di dollari in crediti di utilizzo del modello per i partecipanti, si tratta di un investimento sostanziale nella sicurezza open-source.
Non tutti sono entusiasti. Le reazioni della community sono state contrastanti:
Preoccupazioni sull’accesso selettivo. I critici sostengono che limitare l’accesso alle grandi aziende tech crea un’asimmetria — le grandi organizzazioni ottengono una sicurezza migliore mentre i progetti e le aziende più piccole restano esclusi. Alcuni lo vedono come una contraddizione rispetto allo status di società di beneficio pubblico di Anthropic.
Questioni di sicurezza. Sono state sufficienti 24 ore di revisione interna prima di annunciare un modello così capace? Anthropic sostiene di essersi preparata per mesi, ma la tempistica compressa verso il pubblico ha attirato critiche.
Scetticismo sul marketing. Alcuni osservatori si chiedono se si tratti in parte di un’operazione di marketing in vista della potenziale IPO di Anthropic, per posizionare l’azienda come custode responsabile di un’AI potente.
La dinamica del “qualunque cosa fai, sbagli”. Sia rilasciare il modello ampiamente che limitarlo hanno svantaggi. Un rilascio ampio rischia di potenziare gli aggressori. Un rilascio limitato rischia di creare un divario permanente nella sicurezza. Non esiste una risposta pulita.
Anthropic prevede di trasferire eventualmente la governance di Project Glasswing a “un organismo indipendente di terze parti” che coordini i progetti di cybersecurity tra settore privato e pubblico.
Ecco i percorsi concreti disponibili oggi:
| Percorso | Requisiti | Come candidarsi |
|---|---|---|
| Claude for Open Source | Oltre 5.000 stelle su GitHub o oltre 1M di download NPM | Fai domanda qui |
| Cyber Verification Program | Credenziali di professionista della sicurezza | In arrivo |
| Enterprise (Amazon Bedrock) | Contratto enterprise | Tramite AWS |
| Partner di lancio | Organizzazione di infrastruttura critica | Su invito |
Per la maggior parte degli sviluppatori, il programma Claude for Open Source è il punto di ingresso realistico. Se mantieni un progetto qualificante, fai domanda ora — il programma fornisce accesso a Claude per l’analisi della sicurezza del tuo codebase.
Project Glasswing è l’iniziativa di cybersecurity potenziata dall’AI più ambiziosa fino ad oggi. Abbina un modello AI capace di trovare autonomamente zero-day vecchi di decenni con le organizzazioni responsabili dei software più critici al mondo.
Il modello di accesso limitato è controverso ma probabilmente necessario — le stesse capacità che rendono Mythos un difensore eccezionale lo renderebbero un attaccante eccezionale nelle mani sbagliate. Per ora, i benefici fluiscono attraverso la divulgazione coordinata e le patch verso l’intero ecosistema.
Per gli sviluppatori, il messaggio è pratico: le dipendenze del vostro software stanno per ricevere più scrutinio di sicurezza di quanto non abbiano mai avuto. Le vulnerabilità che Mythos sta trovando oggi diventeranno patch nei prossimi mesi. Mantenete aggiornate le vostre dipendenze, monitorate gli avvisi di sicurezza, e se mantenete un progetto open-source qualificante, fate domanda per il programma Claude for Open Source.
L’era della scoperta di vulnerabilità potenziata dall’AI è arrivata. Project Glasswing è il primo tentativo coordinato per assicurarsi che i difensori si muovano per primi.
Realizzato con FlowHunt . Resta aggiornato sugli ultimi sviluppi in AI e cybersecurity sul nostro blog .
Viktor Zeman è co-proprietario di QualityUnit. Anche dopo 20 anni alla guida dell'azienda, rimane principalmente un ingegnere del software, specializzato in IA, SEO programmatica e sviluppo backend. Ha contribuito a numerosi progetti, tra cui LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab e molti altri.

FlowHunt ti aiuta a creare pipeline AI automatizzate con sicurezza di livello enterprise — utilizzando i migliori modelli disponibili, incluso Claude.

Il jailbreaking dei chatbot AI bypassa i guardrail di sicurezza per far comportare il modello al di fuori dei suoi limiti previsti. Scopri le tecniche più comun...

Il jailbreaking AI si riferisce a tecniche che aggirano le protezioni di sicurezza e i vincoli comportamentali dei modelli linguistici di grandi dimensioni, fac...

Un confronto dettagliato tra IronClaw, NemoClaw e OpenClaw, che copre architettura, modelli di sicurezza e quale framework di agenti IA è più adatto al tuo caso...
Consenso Cookie
Usiamo i cookie per migliorare la tua esperienza di navigazione e analizzare il nostro traffico. See our privacy policy.