
AI Red Teaming
AI Red Teaming ist eine strukturierte adversarielle Sicherheitsübung, bei der Spezialisten KI-Systeme – LLM-Chatbots, Agenten und Pipelines – systematisch mit r...
Anthropics Project Glasswing nutzt das leistungsstärkste KI-Modell, um Tausende von Zero-Day-Schwachstellen in kritischer Software zu finden. Hier erfahren Entwickler und Sicherheitsexperten alles Wichtige.
Anthropic hat gerade Project Glasswing gestartet — eine Cybersicherheitsinitiative, die die weltweit größten Technologieunternehmen mit einem KI-Modell zusammenbringt, das leistungsfähig genug ist, um Schwachstellen zu finden, die sich seit Jahrzehnten in kritischer Software verbergen. Das Modell hat bereits Tausende von Zero-Day-Schwachstellen entdeckt, darunter Fehler in jedem großen Betriebssystem und Webbrowser.
Dies ist keine Produktankündigung oder ein neues API-Feature. Es ist eine koordinierte defensive Maßnahme, die auf der Prämisse basiert, dass KI-gestützte Cyberangriffe kommen werden — und die beste Verteidigung darin besteht, die Schwachstellen zuerst zu finden.
Project Glasswing ist eine branchenübergreifende Cybersicherheitsinitiative, die Anthropic am 7. April 2026 gestartet hat. Ihre Kernmission: KI nutzen, um Schwachstellen in kritischer Software-Infrastruktur zu finden und zu beheben, bevor Angreifer sie ausnutzen können.
Die Initiative wird von Claude Mythos Preview angetrieben, Anthropics fortschrittlichstem unveröffentlichten Frontier-Modell. Anders als frühere Claude-Modelle verfügt Mythos über emergente Fähigkeiten bei der Schwachstellenerkennung und Exploit-Entwicklung, die einen qualitativen Sprung darstellen — nicht durch explizites Sicherheitstraining, sondern durch allgemeine Verbesserungen im Code-Reasoning.
Anthropics Argumentation ist einfach: KI-Modelle haben ein Fähigkeitsniveau erreicht, auf dem sie die meisten Menschen beim Finden und Ausnutzen von Software-Schwachstellen übertreffen. Da sich diese Fähigkeiten verbreiten, werden böswillige Akteure unweigerlich Zugang erhalten. Die Folgen — für Wirtschaft, öffentliche Sicherheit und nationale Sicherheit — könnten schwerwiegend sein. Project Glasswing ist die präventive Antwort: dieselbe Kraft defensiv einsetzen.
Die Ergebnisse sind beeindruckend. Claude Mythos Preview hat bereits Tausende von Zero-Day-Schwachstellen entdeckt — Fehler, die seit Jahren, manchmal Jahrzehnten, unentdeckt geblieben sind:
| Schwachstelle | Software | Alter | Details |
|---|---|---|---|
| Vorzeichenbehafteter Ganzzahlüberlauf in der SACK-Implementierung | OpenBSD | 27 Jahre | Netzwerk-Stack-Schwachstelle |
| H.264-Codec-Exploit über Slice-Sentinel-Kollision | FFmpeg | 16 Jahre | Medienverarbeitungs-Schwachstelle |
| Guest-to-Host-Speicherbeschädigung | Produktions-VMM mit Speichersicherheit | — | Hypervisor-Escape |
| Mehrere Schwachstellen | Jedes große Betriebssystem und jeder Webbrowser | Verschieden | Über den gesamten Stack hinweg |
Und es findet nicht nur Fehler — es entwickelt funktionierende Exploits:
Weniger als 1 % der entdeckten Schwachstellen wurden bisher behoben. Anthropic verwendet eine 90+45-Tage-Frist für verantwortungsvolle Offenlegung und SHA-3-Commitment-Hashes, um den Besitz von Schwachstellendetails nachzuweisen, ohne sie preiszugeben.
Claude Mythos Preview ist nicht nur inkrementell besser — es stellt einen Fähigkeitssprung in der Code-Sicherheitsanalyse dar.
| Benchmark | Mythos Preview | Opus 4.6 | Differenz |
|---|---|---|---|
| CyberGym (Schwachstellenanalyse) | 83,1 % | 66,6 % | +16,5 |
| SWE-bench Pro | 77,8 % | 53,4 % | +24,4 |
| SWE-bench Verified | 93,9 % | 80,8 % | +13,1 |
| BrowseComp | 86,9 % | 83,7 % | +3,2 |
| GPQA Diamond (wissenschaftliches Schlussfolgern) | 94,6 % | 91,3 % | +3,3 |
| Humanity’s Last Exam (ohne Tools) | 56,8 % | 40,0 % | +16,8 |
| Humanity’s Last Exam (mit Tools) | 64,7 % | 53,1 % | +11,6 |
Der Sicherheitsvorsprung ist dramatisch. In einem OSS-Fuzz-Korpustest mit 7.000 Einstiegspunkten erzielte Mythos 595 Abstürze auf den Stufen 1-2, mit 10 vollständigen Kontrollfluss-Übernahmen. Gegen die JavaScript-Engine von Firefox 147 entwickelte es 181 funktionierende Exploits — verglichen mit nur 2 von Opus 4.6.
Anthropics Red Team stellt fest, dass „Opus 4.6 eine nahezu 0-prozentige Erfolgsrate bei der autonomen Exploit-Entwicklung hatte." Mythos erhielt diese Fähigkeiten nicht durch spezialisiertes Sicherheitstraining — sie entstanden durch allgemeine Verbesserungen im Code-Reasoning. Genau das macht es sowohl leistungsstark als auch besorgniserregend.
Das Modell arbeitet innerhalb eines agentischen Scaffolds:
Dies ist kein statischer Scanner. Es ist ein autonomer Agent, der über Code-Verhalten nachdenkt, beabsichtigte von tatsächlicher Funktionalität unterscheidet und Logik-Schwachstellen wie Authentifizierungsumgehungen identifiziert — nicht nur Speicherbeschädigungsmuster.
Project Glasswing ist kein allgemeines Entwicklerwerkzeug. Der Zugang ist bewusst eingeschränkt:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, die Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks.
Etwa 40 weitere Organisationen, die für kritische Software-Infrastruktur verantwortlich sind, haben ebenfalls Zugang.
Wenn Sie ein öffentliches Repository mit 5.000+ GitHub-Sternen oder 1M+ monatlichen NPM-Downloads betreuen, können Sie sich über das Claude for Open Source -Programm bewerben.
Dies ist der zugänglichste Weg für einzelne Entwickler. Das Programm bietet Claude-Zugang speziell für die Sicherheitsanalyse von Open-Source-Projekten.
Ein kommendes Cyber Verification Program wird es legitimen Sicherheitsexperten ermöglichen, sich um Zugang zu bewerben. Details wurden noch nicht bekannt gegeben, aber es wird wahrscheinlich professionelle Nachweise oder eine organisatorische Zugehörigkeit erfordern.
Claude Mythos Preview ist in einer eingeschränkten Forschungsvorschau über Amazon Bedrock mit Enterprise-Sicherheitskontrollen verfügbar — kundenverwaltete Verschlüsselung, VPC-Isolierung und detaillierte Protokollierung.
Nach der Forschungsvorschau beträgt der API-Preis 25 $ / 125 $ pro Million Input-/Output-Tokens über die Claude API, Amazon Bedrock, Google Vertex AI und Microsoft Foundry.
Auch wenn Sie keinen direkten Zugang zu Project Glasswing haben, sind die Auswirkungen erheblich:
Ihre Abhängigkeiten werden sicherer. Project Glasswing scannt die Software, auf der alles andere aufbaut — Betriebssysteme, Browser, Medien-Codecs, Netzwerk-Stacks, Hypervisoren. Die aus dieser Initiative resultierenden Patches werden die Sicherheit des gesamten Ökosystems verbessern.
Die Schwachstellenlandschaft verändert sich. KI kann jetzt Fehler finden, die Jahrzehnte menschlicher Überprüfung übersehen haben. Das hebt die Messlatte dafür, was „sicherer Code" bedeutet, und beschleunigt den Zeitrahmen, in dem bekannte Schwachstellenklassen entdeckt und behoben werden.
KI-gestützte Sicherheitstools kommen. Was Mythos heute in einer eingeschränkten Umgebung kann, werden andere Modelle in den kommenden Jahren annähern. Sicherheitsbewusste Entwicklungspraktiken und Werkzeuge werden zum Standard.
Open Source profitiert überproportional. Anthropic hat 2,5 Millionen Dollar an Alpha-Omega und OpenSSF über die Linux Foundation zugesagt, plus 1,5 Millionen Dollar an die Apache Software Foundation. Zusammen mit 100 Millionen Dollar an Modellnutzungsguthaben für Teilnehmer ist dies eine erhebliche Investition in Open-Source-Sicherheit.
Nicht alle sind begeistert. Die Reaktionen der Community sind gemischt:
Bedenken zum selektiven Zugang. Kritiker argumentieren, dass die Beschränkung des Zugangs auf große Technologieunternehmen eine Asymmetrie schafft — große Organisationen erhalten bessere Sicherheit, während kleinere Projekte und Unternehmen außen vor bleiben. Einige sehen darin einen Widerspruch zu Anthropics Status als Public-Benefit-Corporation.
Sicherheitsfragen. Waren 24 Stunden interner Überprüfung ausreichend, bevor ein so leistungsfähiges Modell angekündigt wurde? Anthropic argumentiert, dass sie sich seit Monaten vorbereitet haben, aber der komprimierte öffentliche Zeitrahmen hat Überprüfungen auf sich gezogen.
Marketing-Skepsis. Einige Beobachter fragen sich, ob dies teilweise eine Marketingaktion vor Anthropics potenziellem Börsengang ist, die das Unternehmen als verantwortungsvollen Hüter leistungsstarker KI positioniert.
Das „Damned if you do"-Dilemma. Sowohl die breite Veröffentlichung als auch die Einschränkung des Modells haben Nachteile. Eine breite Veröffentlichung riskiert, Angreifer zu stärken. Eine eingeschränkte Veröffentlichung riskiert eine dauerhafte Sicherheitskluft. Es gibt keine saubere Lösung.
Anthropic plant, die Governance von Project Glasswing schließlich an „ein unabhängiges Drittgremium" zu übergeben, das Cybersicherheitsprojekte in privaten und öffentlichen Sektoren koordiniert.
Hier sind die heute verfügbaren konkreten Wege:
| Weg | Voraussetzungen | Bewerbung |
|---|---|---|
| Claude for Open Source | 5.000+ GitHub-Sterne oder 1M+ NPM-Downloads | Hier bewerben |
| Cyber Verification Program | Nachweise als Sicherheitsexperte | Demnächst verfügbar |
| Enterprise (Amazon Bedrock) | Enterprise-Vertrag | Über AWS |
| Startpartner | Organisation mit kritischer Infrastruktur | Nur auf Einladung |
Für die meisten Entwickler ist das Claude for Open Source-Programm der realistische Einstiegspunkt. Wenn Sie ein qualifizierendes Projekt betreuen, bewerben Sie sich jetzt — das Programm bietet Claude-Zugang für die Sicherheitsanalyse Ihrer Codebasis.
Project Glasswing ist die bisher ambitionierteste KI-gestützte Cybersicherheitsinitiative. Sie bringt ein KI-Modell, das autonom jahrzehntealte Zero-Days finden kann, mit den Organisationen zusammen, die für die weltweit kritischste Software verantwortlich sind.
Das eingeschränkte Zugangsmodell ist umstritten, aber wohl notwendig — dieselben Fähigkeiten, die Mythos zu einem außergewöhnlichen Verteidiger machen, würden es in den falschen Händen zu einem außergewöhnlichen Angreifer machen. Vorerst fließen die Vorteile durch koordinierte Offenlegung und Patches in das gesamte Ökosystem.
Für Entwickler ist die praktische Erkenntnis: Die Abhängigkeiten Ihrer Software werden bald einer gründlicheren Sicherheitsüberprüfung unterzogen als je zuvor. Die Schwachstellen, die Mythos heute findet, werden in den kommenden Monaten zu Patches. Halten Sie Ihre Abhängigkeiten aktuell, beobachten Sie Sicherheitshinweise, und wenn Sie ein qualifizierendes Open-Source-Projekt betreuen, bewerben Sie sich für das Claude for Open Source-Programm.
Das Zeitalter der KI-gestützten Schwachstellenerkennung ist da. Project Glasswing ist der erste koordinierte Versuch sicherzustellen, dass die Verteidiger zuerst handeln.
Erstellt mit FlowHunt . Bleiben Sie auf dem Laufenden über die neuesten Entwicklungen in KI und Cybersicherheit in unserem Blog .
Viktor Zeman ist Miteigentümer von QualityUnit. Auch nach 20 Jahren als Leiter des Unternehmens bleibt er in erster Linie Softwareentwickler, spezialisiert auf KI, programmatisches SEO und Backend-Entwicklung. Er hat zu zahlreichen Projekten beigetragen, darunter LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab und viele andere.

FlowHunt hilft Ihnen, automatisierte KI-Pipelines mit unternehmenstauglicher Sicherheit aufzubauen — mit den besten verfügbaren Modellen, einschließlich Claude.

AI Red Teaming ist eine strukturierte adversarielle Sicherheitsübung, bei der Spezialisten KI-Systeme – LLM-Chatbots, Agenten und Pipelines – systematisch mit r...

Erkunden Sie die Bedenken von Anthropic-Mitbegründer Jack Clark zur KI-Sicherheit, situativen Bewusstheit in großen Sprachmodellen und das regulatorische Umfeld...

Ein detaillierter Vergleich von IronClaw, NemoClaw und OpenClaw mit Abdeckung von Architektur, Sicherheitsmodellen und welches KI-Agent-Framework zu deinem Anwe...