
Jailbreaking av AI-chatbottar: Tekniker, exempel och försvar
Jailbreaking av AI-chatbottar kringgår säkerhetsskydd för att få modellen att bete sig utanför sina avsedda gränser. Lär dig de vanligaste teknikerna — DAN, rol...
Anthropics Project Glasswing använder deras mest kraftfulla AI-modell för att hitta tusentals zero-day-sårbarheter i kritisk programvara. Här är allt som utvecklare och säkerhetsproffs behöver veta.
Anthropic lanserade just Project Glasswing — ett cybersäkerhetsinitiativ som sammanför världens största teknikföretag med en AI-modell kraftfull nog att hitta sårbarheter som har legat dolda i kritisk programvara i årtionden. Modellen har redan upptäckt tusentals zero-day-sårbarheter, inklusive buggar i alla stora operativsystem och webbläsare.
Det här är inte en produktlansering eller en ny API-funktion. Det är en koordinerad defensiv insats byggd på premissen att AI-drivna cyberattacker är på väg, och det bästa försvaret är att hitta sårbarheterna först.
Project Glasswing är ett branschövergripande cybersäkerhetsinitiativ som lanserades av Anthropic den 7 april 2026. Dess kärnuppdrag: använda AI för att hitta och åtgärda sårbarheter i kritisk programvaruinfrastruktur innan angripare kan utnyttja dem.
Initiativet drivs av Claude Mythos Preview, Anthropics mest avancerade osläppta frontmodell. Till skillnad från tidigare Claude-modeller har Mythos framväxande förmågor inom sårbarhetsupptäckt och exploitutveckling som representerar ett kvalitativt språng — inte från explicit säkerhetsträning, utan från generella förbättringar i kodresonemanget.
Anthropics argument är rakt på sak: AI-modeller har nått en kapacitetsnivå där de överträffar de flesta människor när det gäller att hitta och utnyttja programvarusårbarheter. I takt med att dessa förmågor sprids kommer illasinnade aktörer oundvikligen att få tillgång. Konsekvenserna — för ekonomier, allmän säkerhet och nationell säkerhet — kan bli allvarliga. Project Glasswing är det förebyggande svaret: använda samma kraft defensivt.
Resultaten är slående. Claude Mythos Preview har redan upptäckt tusentals zero-day-sårbarheter — buggar som har undgått upptäckt i år, ibland årtionden:
| Sårbarhet | Programvara | Ålder | Detaljer |
|---|---|---|---|
| Overflow i signerat heltal i SACK-implementation | OpenBSD | 27 år | Sårbarhet i nätverksstacken |
| H.264-codec-exploit via slice sentinel-kollision | FFmpeg | 16 år | Sårbarhet i mediebearbetning |
| Minneskorruption gäst-till-värd | Produktionsfärdig minnessäker VMM | — | Hypervisor-utbrytning |
| Flera sårbarheter | Alla stora OS och webbläsare | Varierande | Tvärs igenom hela stacken |
Och den hittar inte bara buggar — den utvecklar fungerande exploits:
Mindre än 1 % av upptäckta sårbarheter har åtgärdats hittills. Anthropic använder en tidslinje på 90+45 dagars ansvarsfullt avslöjande och SHA-3-bekräftelsehashvärden för att bevisa innehav av sårbarhetsdetaljer utan att avslöja dem.
Claude Mythos Preview är inte bara marginellt bättre — den representerar ett kapacitetssprång inom kodsäkerhetsanalys.
| Benchmark | Mythos Preview | Opus 4.6 | Skillnad |
|---|---|---|---|
| CyberGym (sårbarhetsanalys) | 83,1 % | 66,6 % | +16,5 |
| SWE-bench Pro | 77,8 % | 53,4 % | +24,4 |
| SWE-bench Verified | 93,9 % | 80,8 % | +13,1 |
| BrowseComp | 86,9 % | 83,7 % | +3,2 |
| GPQA Diamond (vetenskapligt resonemang) | 94,6 % | 91,3 % | +3,3 |
| Humanity’s Last Exam (utan verktyg) | 56,8 % | 40,0 % | +16,8 |
| Humanity’s Last Exam (med verktyg) | 64,7 % | 53,1 % | +11,6 |
Säkerhetsgapet är dramatiskt. I ett OSS-Fuzz-korpustest med 7 000 ingångspunkter uppnådde Mythos 595 krascher på nivåerna 1–2, med 10 fulla kontrollflödeskapningar. Mot Firefox 147:s JavaScript-motor utvecklade den 181 fungerande exploits — jämfört med bara 2 från Opus 4.6.
Anthropics red team noterar att “Opus 4.6 hade en nära 0-procentig framgångsfrekvens vid autonom exploitutveckling.” Mythos fick inte dessa förmågor från specialiserad säkerhetsträning — de uppstod från generella förbättringar i kodresonemanget. Det är det som gör detta både kraftfullt och oroväckande.
Modellen opererar inom ett agentbaserat ramverk:
Det här är inte en statisk skanner. Det är en autonom agent som resonerar om kodbeteende, skiljer mellan avsedd och faktisk funktionalitet och identifierar logiska sårbarheter som autentiseringsbypass — inte bara minneskorruptionsmönster.
Project Glasswing är inte ett generellt utvecklarverktyg. Tillgången är medvetet begränsad:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA och Palo Alto Networks.
Ungefär 40 ytterligare organisationer med ansvar för kritisk programvaruinfrastruktur har också tillgång.
Om du underhåller ett publikt repository med 5 000+ GitHub-stjärnor eller 1M+ månatliga NPM-nedladdningar kan du ansöka via programmet Claude for Open Source .
Det här är den mest tillgängliga vägen för enskilda utvecklare. Programmet ger Claude-åtkomst specifikt för säkerhetsanalys av open source-projekt.
Ett kommande Cyber Verification Program kommer att låta legitima säkerhetsproffs ansöka om tillgång. Detaljer har ännu inte tillkännagivits, men det kommer sannolikt kräva professionella meriter eller organisationstillhörighet.
Claude Mythos Preview finns tillgänglig i begränsad forskningsförhandsvisning via Amazon Bedrock med företagsklassade säkerhetskontroller — kundstyrda krypteringsnycklar, VPC-isolering och detaljerad loggning.
Efter forskningsförhandsvisningen blir API-priset $25 / $125 per miljon in-/utdata-tokens via Claude API, Amazon Bedrock, Google Vertex AI och Microsoft Foundry.
Även om du inte har direkt tillgång till Project Glasswing är konsekvenserna betydande:
Dina beroenden kommer att bli säkrare. Project Glasswing skannar den programvara som allt annat bygger på — operativsystem, webbläsare, mediakodekar, nätverksstackar, hypervisorer. Patchar som flödar från detta initiativ kommer att förbättra säkerheten i hela ekosystemet.
Sårbarhetslandskapet förändras. AI kan nu hitta buggar som årtionden av mänsklig granskning missade. Detta höjer ribban för vad “säker kod” innebär och accelererar tidslinjen för när kända sårbarhetsklasser upptäcks och åtgärdas.
AI-drivna säkerhetsverktyg är på väg. Det som Mythos kan göra idag i en begränsad miljö kommer andra modeller att närma sig under de kommande åren. Säkerhetsmedveten utvecklingspraxis och verktyg blir ett minimikrav.
Open source får oproportionerligt stor nytta. Anthropic har åtagit sig 2,5 miljoner dollar till Alpha-Omega och OpenSSF via Linux Foundation, plus 1,5 miljoner dollar till Apache Software Foundation. Tillsammans med 100 miljoner dollar i modellanvändningskrediter för deltagare är detta en betydande investering i open source-säkerhet.
Inte alla är entusiastiska. Reaktionerna har varit blandade:
Oro kring selektiv tillgång. Kritiker hävdar att begränsad tillgång till stora teknikföretag skapar en asymmetri — stora organisationer får bättre säkerhet medan mindre projekt och företag lämnas utanför. Vissa ser detta som en motsägelse till Anthropics status som samhällsnyttigt bolag.
Säkerhetsfrågor. Var 24 timmars intern granskning tillräckligt innan man tillkännagav en modell med dessa förmågor? Anthropic hävdar att de har förberett sig i månader, men den komprimerade publika tidslinjen har väckt kritik.
Marknadsföringsskepticism. Vissa observatörer ifrågasätter om detta delvis är en marknadsföringsinsats inför Anthropics potentiella börsnotering, för att positionera företaget som en ansvarsfull förvaltare av kraftfull AI.
“Dömd oavsett vad du gör”-dynamiken. Att både släppa modellen brett och begränsa den har nackdelar. Bred lansering riskerar att stärka angripare. Begränsad lansering riskerar att skapa en permanent säkerhetsklyfta. Det finns inget enkelt svar.
Anthropic planerar att så småningom överföra styrningen av Project Glasswing till “ett oberoende, tredjepartsorgan” som koordinerar cybersäkerhetsprojekt över privata och offentliga sektorer.
Här är de konkreta vägarna som finns tillgängliga idag:
| Väg | Krav | Hur man ansöker |
|---|---|---|
| Claude for Open Source | 5 000+ GitHub-stjärnor eller 1M+ NPM-nedladdningar | Ansök här |
| Cyber Verification Program | Meriter som säkerhetsproffs | Kommer snart |
| Företag (Amazon Bedrock) | Företagsavtal | Via AWS |
| Lanseringspartner | Organisation med kritisk infrastruktur | Genom inbjudan |
För de flesta utvecklare är programmet Claude for Open Source den realistiska ingångspunkten. Om du underhåller ett kvalificerande projekt, ansök nu — programmet ger Claude-åtkomst för säkerhetsanalys av din kodbas.
Project Glasswing är det mest ambitiösa AI-drivna cybersäkerhetsinitiativet hittills. Det kopplar samman en AI-modell som autonomt kan hitta årtionden gamla zero-days med de organisationer som ansvarar för världens mest kritiska programvara.
Den begränsade åtkomstmodellen är kontroversiell men möjligen nödvändig — samma förmågor som gör Mythos till en exceptionell försvarare skulle göra den till en exceptionell angripare i fel händer. För tillfället flödar fördelarna genom koordinerat avslöjande och patchning till hela ekosystemet.
För utvecklare är slutsatsen praktisk: dina programvaruberoenden kommer snart att få mer säkerhetsgranskning än de någonsin haft. De sårbarheter som Mythos hittar idag kommer att bli patchar under de kommande månaderna. Håll dina beroenden uppdaterade, bevaka säkerhetsmeddelanden och om du underhåller ett kvalificerande open source-projekt, ansök till programmet Claude for Open Source.
Eran av AI-driven sårbarhetsupptäckt är här. Project Glasswing är det första koordinerade försöket att se till att försvararna agerar först.
Byggd med FlowHunt . Håll dig uppdaterad med den senaste utvecklingen inom AI och cybersäkerhet på vår blogg .
Viktor Zeman är delägare i QualityUnit. Även efter 20 år som ledare för företaget är han främst mjukvaruingenjör, specialiserad på AI, programmatisk SEO och backendutveckling. Han har bidragit till många projekt, inklusive LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab och många andra.


Jailbreaking av AI-chatbottar kringgår säkerhetsskydd för att få modellen att bete sig utanför sina avsedda gränser. Lär dig de vanligaste teknikerna — DAN, rol...

Utforska hur GPT-5 Codex revolutionerar mjukvaruutveckling med avancerade agentiska kodningsfunktioner, 7-timmars autonom uppgiftskörning och intelligenta kodgr...

Jailbreaking AI avser tekniker som kringgår säkerhetsskyddsräcken och beteendebegränsningar hos stora språkmodeller, vilket får dem att producera resultat som b...