
Jailbreaking des Chatbots IA : Techniques, Exemples et Défenses
Le jailbreaking des chatbots IA contourne les garde-fous de sécurité pour faire en sorte que le modèle se comporte en dehors de ses limites prévues. Découvrez l...
Le Project Glasswing d’Anthropic utilise son modèle d’IA le plus puissant pour découvrir des milliers de vulnérabilités zero-day dans les logiciels critiques. Voici tout ce que les développeurs et les professionnels de la sécurité doivent savoir.
Anthropic vient de lancer Project Glasswing — une initiative de cybersécurité qui associe les plus grandes entreprises technologiques mondiales à un modèle d’IA suffisamment puissant pour trouver des vulnérabilités dissimulées dans des logiciels critiques depuis des décennies. Le modèle a déjà découvert des milliers de vulnérabilités zero-day, y compris des bugs dans chaque système d’exploitation et navigateur web majeur.
Il ne s’agit pas d’une annonce de produit ou d’une nouvelle fonctionnalité d’API. C’est un effort défensif coordonné fondé sur le principe que les cyberattaques propulsées par l’IA arrivent, et que la meilleure défense consiste à trouver les vulnérabilités en premier.
Project Glasswing est une initiative intersectorielle de cybersécurité lancée par Anthropic le 7 avril 2026. Sa mission principale : utiliser l’IA pour trouver et corriger les vulnérabilités dans les infrastructures logicielles critiques avant que les attaquants ne puissent les exploiter.
L’initiative repose sur Claude Mythos Preview, le modèle frontier le plus avancé et non publié d’Anthropic. Contrairement aux modèles Claude précédents, Mythos possède des capacités émergentes en découverte de vulnérabilités et développement d’exploits qui représentent un saut qualitatif — non pas grâce à un entraînement spécifique en sécurité, mais grâce à des améliorations générales du raisonnement sur le code.
L’argument d’Anthropic est simple : les modèles d’IA ont atteint un niveau de capacité où ils surpassent la plupart des humains dans la recherche et l’exploitation de vulnérabilités logicielles. À mesure que ces capacités se diffusent, des acteurs malveillants y auront inévitablement accès. Les conséquences — pour les économies, la sécurité publique et la sécurité nationale — pourraient être graves. Project Glasswing est la réponse préventive : utiliser cette même puissance de manière défensive.
Les résultats sont frappants. Claude Mythos Preview a déjà découvert des milliers de vulnérabilités zero-day — des bugs passés inaperçus pendant des années, parfois des décennies :
| Vulnérabilité | Logiciel | Âge | Détails |
|---|---|---|---|
| Dépassement d’entier signé dans l’implémentation SACK | OpenBSD | 27 ans | Vulnérabilité de la pile réseau |
| Exploit du codec H.264 via collision de sentinelle de tranche | FFmpeg | 16 ans | Vulnérabilité de traitement multimédia |
| Corruption mémoire guest-to-host | VMM memory-safe en production | — | Évasion d’hyperviseur |
| Multiples vulnérabilités | Chaque OS et navigateur web majeur | Divers | Sur toute la pile |
Et il ne se contente pas de trouver des bugs — il développe des exploits fonctionnels :
Moins de 1 % des vulnérabilités découvertes ont été corrigées jusqu’à présent. Anthropic utilise un calendrier de divulgation responsable de 90+45 jours et des hachages d’engagement SHA-3 pour prouver la possession des détails de vulnérabilité sans les révéler.
Claude Mythos Preview n’est pas simplement un peu meilleur — il représente un bond en matière de capacités d’analyse de sécurité du code.
| Benchmark | Mythos Preview | Opus 4.6 | Écart |
|---|---|---|---|
| CyberGym (analyse de vulnérabilités) | 83,1 % | 66,6 % | +16,5 |
| SWE-bench Pro | 77,8 % | 53,4 % | +24,4 |
| SWE-bench Verified | 93,9 % | 80,8 % | +13,1 |
| BrowseComp | 86,9 % | 83,7 % | +3,2 |
| GPQA Diamond (raisonnement scientifique) | 94,6 % | 91,3 % | +3,3 |
| Humanity’s Last Exam (sans outils) | 56,8 % | 40,0 % | +16,8 |
| Humanity’s Last Exam (avec outils) | 64,7 % | 53,1 % | +11,6 |
L’écart en sécurité est considérable. Lors d’un test sur le corpus OSS-Fuzz avec 7 000 points d’entrée, Mythos a obtenu 595 crashs aux niveaux 1-2, avec 10 détournements complets du flux de contrôle. Face au moteur JavaScript de Firefox 147, il a développé 181 exploits fonctionnels — contre seulement 2 pour Opus 4.6.
L’équipe de red team d’Anthropic note qu’« Opus 4.6 avait un taux de réussite proche de 0 % pour le développement autonome d’exploits ». Mythos n’a pas acquis ces capacités grâce à un entraînement spécialisé en sécurité — elles ont émergé d’améliorations générales du raisonnement sur le code. C’est ce qui rend cela à la fois puissant et préoccupant.
Le modèle opère au sein d’un scaffold agentique :
Ce n’est pas un scanner statique. C’est un agent autonome qui raisonne sur le comportement du code, distingue la fonctionnalité prévue de la fonctionnalité réelle, et identifie des vulnérabilités logiques comme les contournements d’authentification — pas seulement des schémas de corruption mémoire.
Project Glasswing n’est pas un outil de développement généraliste. L’accès est délibérément restreint :
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks.
Environ 40 organisations supplémentaires responsables d’infrastructures logicielles critiques disposent également d’un accès.
Si vous maintenez un dépôt public avec plus de 5 000 étoiles GitHub ou plus d’un million de téléchargements mensuels NPM, vous pouvez postuler via le programme Claude for Open Source .
C’est la voie d’accès la plus accessible pour les développeurs individuels. Le programme fournit un accès à Claude spécifiquement pour l’analyse de sécurité des projets open source.
Un prochain Cyber Verification Program permettra aux professionnels légitimes de la sécurité de postuler pour y accéder. Les détails n’ont pas encore été annoncés, mais cela nécessitera probablement des qualifications professionnelles ou une affiliation organisationnelle.
Claude Mythos Preview est disponible en aperçu de recherche contrôlé via Amazon Bedrock avec des contrôles de sécurité de niveau entreprise — chiffrement géré par le client, isolation VPC et journalisation détaillée.
Après l’aperçu de recherche, le tarif API sera de 25 $ / 125 $ par million de tokens en entrée/sortie via l’API Claude, Amazon Bedrock, Google Vertex AI et Microsoft Foundry.
Même si vous n’avez pas d’accès direct à Project Glasswing, ses implications sont significatives :
Vos dépendances deviendront plus sûres. Project Glasswing analyse les logiciels sur lesquels tout le reste repose — systèmes d’exploitation, navigateurs, codecs multimédias, piles réseau, hyperviseurs. Les correctifs issus de cette initiative amélioreront la sécurité de l’ensemble de l’écosystème.
Le paysage des vulnérabilités change. L’IA peut désormais trouver des bugs que des décennies de revue humaine ont manqués. Cela relève la barre de ce que signifie « code sécurisé » et accélère le calendrier de découverte et de correction des classes de vulnérabilités connues.
Les outils de sécurité propulsés par l’IA arrivent. Ce que Mythos peut faire aujourd’hui dans un cadre restreint, d’autres modèles l’approcheront dans les années à venir. Les pratiques de développement soucieuses de la sécurité et les outils associés deviendront indispensables.
L’open source en bénéficie de manière disproportionnée. Anthropic a engagé 2,5 millions de dollars pour Alpha-Omega et OpenSSF via la Linux Foundation, plus 1,5 million de dollars pour l’Apache Software Foundation. Combiné à 100 millions de dollars en crédits d’utilisation de modèles pour les participants, c’est un investissement substantiel dans la sécurité open source.
Tout le monde n’est pas enthousiaste. Les réactions de la communauté sont mitigées :
Préoccupations liées à l’accès sélectif. Les critiques soutiennent que restreindre l’accès aux grandes entreprises technologiques crée une asymétrie — les grandes organisations bénéficient d’une meilleure sécurité tandis que les projets et entreprises plus petits sont laissés pour compte. Certains y voient une contradiction avec le statut de société d’intérêt public d’Anthropic.
Questions de sécurité. 24 heures de revue interne étaient-elles suffisantes avant d’annoncer un modèle aussi capable ? Anthropic affirme se préparer depuis des mois, mais le calendrier public compressé a attiré les critiques.
Scepticisme marketing. Certains observateurs se demandent s’il ne s’agit pas en partie d’un exercice marketing avant l’éventuelle introduction en bourse d’Anthropic, positionnant l’entreprise comme un gardien responsable d’une IA puissante.
La dynamique du « quoi qu’on fasse ». Publier le modèle largement et le restreindre ont tous deux des inconvénients. Une diffusion large risque d’armer les attaquants. Un accès restreint risque de créer un fossé permanent en matière de sécurité. Il n’y a pas de réponse simple.
Anthropic prévoit de confier à terme la gouvernance de Project Glasswing à « un organisme tiers indépendant » coordonnant les projets de cybersécurité entre les secteurs privé et public.
Voici les voies concrètes disponibles aujourd’hui :
| Voie | Conditions requises | Comment postuler |
|---|---|---|
| Claude for Open Source | Plus de 5 000 étoiles GitHub ou plus d’un million de téléchargements NPM | Postuler ici |
| Cyber Verification Program | Qualifications de professionnel de la sécurité | Bientôt disponible |
| Entreprise (Amazon Bedrock) | Contrat entreprise | Via AWS |
| Partenaire de lancement | Organisation d’infrastructure critique | Sur invitation |
Pour la plupart des développeurs, le programme Claude for Open Source est le point d’entrée réaliste. Si vous maintenez un projet éligible, postulez dès maintenant — le programme fournit un accès à Claude pour l’analyse de sécurité de votre base de code.
Project Glasswing est l’initiative de cybersécurité propulsée par l’IA la plus ambitieuse à ce jour. Elle associe un modèle d’IA capable de trouver de manière autonome des zero-days vieux de plusieurs décennies aux organisations responsables des logiciels les plus critiques au monde.
Le modèle d’accès restreint est controversé mais sans doute nécessaire — les mêmes capacités qui font de Mythos un défenseur exceptionnel en feraient un attaquant exceptionnel entre de mauvaises mains. Pour l’instant, les bénéfices se diffusent via la divulgation coordonnée et les correctifs vers l’ensemble de l’écosystème.
Pour les développeurs, le message est pratique : les dépendances de vos logiciels sont sur le point de recevoir un examen de sécurité plus approfondi que jamais. Les vulnérabilités que Mythos trouve aujourd’hui deviendront des correctifs dans les mois à venir. Gardez vos dépendances à jour, surveillez les avis de sécurité, et si vous maintenez un projet open source éligible, postulez au programme Claude for Open Source.
L’ère de la découverte de vulnérabilités par l’IA est arrivée. Project Glasswing est la première tentative coordonnée pour s’assurer que les défenseurs agissent en premier.
Créé avec FlowHunt . Restez à jour avec les dernières actualités en IA et cybersécurité sur notre blog .
Viktor Zeman est co-propriétaire de QualityUnit. Même après 20 ans à la tête de l'entreprise, il reste avant tout un ingénieur logiciel, spécialisé en IA, SEO programmatique et développement back-end. Il a contribué à de nombreux projets, dont LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab et bien d'autres.

FlowHunt vous aide à créer des pipelines IA automatisés avec une sécurité de niveau entreprise — en utilisant les meilleurs modèles disponibles, dont Claude.

Le jailbreaking des chatbots IA contourne les garde-fous de sécurité pour faire en sorte que le modèle se comporte en dehors de ses limites prévues. Découvrez l...

Le jailbreaking de l'IA fait référence aux techniques qui contournent les garde-fous de sécurité et les contraintes comportementales des grands modèles de langa...

Une comparaison détaillée d'IronClaw, NemoClaw et OpenClaw, couvrant l'architecture, les modèles de sécurité et quel framework d'agent IA correspond à votre cas...
Consentement aux Cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation et analyser notre trafic. See our privacy policy.