
Jailbreaking av AI-Chatboter: Teknikker, Eksempler og Forsvar
Jailbreaking av AI-chatboter omgår sikkerhetsbarrierer for å få modellen til å oppføre seg utenfor sine tiltenkte grenser. Lær de vanligste teknikkene — DAN, ro...
Anthropics Project Glasswing bruker sin mest kraftige AI-modell til å finne tusenvis av zero-day-sårbarheter i kritisk programvare. Her er alt utviklere og sikkerhetseksperter trenger å vite.
Anthropic har nettopp lansert Project Glasswing — et cybersikkerhetsinitiativ som kobler verdens største teknologiselskaper med en AI-modell som er kraftig nok til å finne sårbarheter som har ligget skjult i kritisk programvare i tiår. Modellen har allerede oppdaget tusenvis av zero-day-sårbarheter, inkludert feil i alle store operativsystemer og nettlesere.
Dette er ikke en produktlansering eller en ny API-funksjon. Det er en koordinert defensiv innsats bygget på premisset om at AI-drevne cyberangrep er i ferd med å komme, og det beste forsvaret er å finne sårbarhetene først.
Project Glasswing er et tverrfaglig cybersikkerhetsinitiativ lansert av Anthropic 7. april 2026. Kjerneoppdraget: bruke AI til å finne og rette sårbarheter i kritisk programvareinfrastruktur før angripere kan utnytte dem.
Initiativet drives av Claude Mythos Preview, Anthropics mest avanserte, ikke-utgitte frontiermodell. I motsetning til tidligere Claude-modeller har Mythos fremvoksende evner innen sårbarhetssoppdagelse og utnyttelsesutvikling som representerer et kvalitativt sprang — ikke fra eksplisitt sikkerhetstrening, men fra generelle forbedringer i kodeforståelse.
Anthropics argument er enkelt: AI-modeller har nådd et evnenivå der de overgår de fleste mennesker i å finne og utnytte programvaresårbarheter. Etter hvert som disse evnene sprer seg, vil ondsinnede aktører uunngåelig få tilgang. Konsekvensene — for økonomier, offentlig sikkerhet og nasjonal sikkerhet — kan bli alvorlige. Project Glasswing er det forebyggende svaret: bruk den samme kraften defensivt.
Resultatene er slående. Claude Mythos Preview har allerede oppdaget tusenvis av zero-day-sårbarheter — feil som har gått uoppdaget i årevis, noen ganger i tiår:
| Sårbarhet | Programvare | Alder | Detaljer |
|---|---|---|---|
| Signert heltallsoverflyt i SACK-implementering | OpenBSD | 27 år | Nettverksstakk-sårbarhet |
| H.264-kodek-utnyttelse via slice sentinel-kollisjon | FFmpeg | 16 år | Mediebehandlingssårbarhet |
| Gjest-til-vert minnekorrupsjon | Produksjonsminnesikker VMM | — | Hypervisor-flukt |
| Flere sårbarheter | Alle store OS-er og nettlesere | Diverse | På tvers av hele stabelen |
Og den finner ikke bare feil — den utvikler fungerende utnyttelser:
Mindre enn 1 % av oppdagede sårbarheter er rettet så langt. Anthropic bruker en 90+45 dagers tidslinje for ansvarlig avsløring og SHA-3-forpliktelseshash-er for å bevise besittelse av sårbarhetsdetaljer uten å avsløre dem.
Claude Mythos Preview er ikke bare marginalt bedre — den representerer et evnesprang innen kodesikkerhetsanalyse.
| Ytelsestest | Mythos Preview | Opus 4.6 | Forskjell |
|---|---|---|---|
| CyberGym (sårbarhetsanalyse) | 83,1 % | 66,6 % | +16,5 |
| SWE-bench Pro | 77,8 % | 53,4 % | +24,4 |
| SWE-bench Verified | 93,9 % | 80,8 % | +13,1 |
| BrowseComp | 86,9 % | 83,7 % | +3,2 |
| GPQA Diamond (vitenskapelig resonnering) | 94,6 % | 91,3 % | +3,3 |
| Humanity’s Last Exam (uten verktøy) | 56,8 % | 40,0 % | +16,8 |
| Humanity’s Last Exam (med verktøy) | 64,7 % | 53,1 % | +11,6 |
Sikkerhetsgapet er dramatisk. I en OSS-Fuzz-korpustest med 7 000 inngangspunkter oppnådde Mythos 595 krasjer på nivå 1-2, med 10 fullstendige kapringer av kontrollflyt. Mot Firefox 147s JavaScript-motor utviklet den 181 fungerende utnyttelser — sammenlignet med bare 2 fra Opus 4.6.
Anthropics røde team bemerker at «Opus 4.6 hadde en nær 0 % suksessrate for autonom utnyttelsesutvikling.» Mythos fikk ikke disse evnene fra spesialisert sikkerhetstrening — de oppsto fra generelle forbedringer i kodeforståelse. Det er det som gjør dette både kraftfullt og bekymringsverdig.
Modellen opererer innenfor et agentisk rammeverk:
Dette er ikke en statisk skanner. Det er en autonom agent som resonerer om kodeadferd, skiller mellom tiltenkt og faktisk funksjonalitet, og identifiserer logikksårbarheter som autentiseringsomgåelser — ikke bare minnekorrupsjonsmønstre.
Project Glasswing er ikke et generelt utviklerverktøy. Tilgangen er bevisst begrenset:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA og Palo Alto Networks.
Omtrent 40 ytterligere organisasjoner med ansvar for kritisk programvareinfrastruktur har også tilgang.
Hvis du vedlikeholder et offentlig repository med 5 000+ GitHub-stjerner eller 1M+ månedlige NPM-nedlastinger, kan du søke gjennom Claude for Open Source -programmet.
Dette er den mest tilgjengelige veien for individuelle utviklere. Programmet gir Claude-tilgang spesifikt for sikkerhetsanalyse av åpen kildekode-prosjekter.
Et kommende Cyber Verification Program vil gjøre det mulig for legitime sikkerhetseksperter å søke om tilgang. Detaljer er ikke kunngjort ennå, men dette vil sannsynligvis kreve profesjonelle legitimasjoner eller organisasjonstilknytning.
Claude Mythos Preview er tilgjengelig i begrenset forskningsforhåndsvisning gjennom Amazon Bedrock med bedriftsklasse sikkerhetskontroller — kundehåndtert kryptering, VPC-isolering og detaljert logging.
Etter forskningsforhåndsvisningen vil API-prisen være $25 / $125 per million input-/output-tokens gjennom Claude API, Amazon Bedrock, Google Vertex AI og Microsoft Foundry.
Selv om du ikke har direkte tilgang til Project Glasswing, er implikasjonene betydelige:
Avhengighetene dine vil bli sikrere. Project Glasswing skanner programvaren som alt annet er bygget på — operativsystemer, nettlesere, mediekodeker, nettverksstakker, hypervisorer. Oppdateringer som strømmer fra dette initiativet vil forbedre sikkerheten i hele økosystemet.
Sårbarhetslandskapet er i endring. AI kan nå finne feil som tiår med menneskelig gjennomgang overså. Dette hever standarden for hva «sikker kode» betyr og akselererer tidslinjen for når kjente sårbarhetskategorier oppdages og rettes.
AI-drevne sikkerhetsverktøy er på vei. Det Mythos kan gjøre i dag i et begrenset miljø, vil andre modeller nærme seg i de kommende årene. Sikkerhetsbevisste utviklingspraksiser og verktøy vil bli et minimumskrav.
Åpen kildekode får uforholdsmessig stor fordel. Anthropic har forpliktet seg til 2,5 millioner dollar til Alpha-Omega og OpenSSF via Linux Foundation, pluss 1,5 millioner dollar til Apache Software Foundation. Kombinert med 100 millioner dollar i modellbrukskreditter for deltakere, er dette en betydelig investering i åpen kildekode-sikkerhet.
Ikke alle er entusiastiske. Reaksjonene fra miljøet har vært blandede:
Bekymringer om selektiv tilgang. Kritikere hevder at begrenset tilgang til store teknologiselskaper skaper en asymmetri — store organisasjoner får bedre sikkerhet mens mindre prosjekter og selskaper blir utelatt. Noen ser dette som i strid med Anthropics status som allmennyttig selskap.
Sikkerhetsspørsmål. Var 24 timers intern gjennomgang tilstrekkelig før kunngjøringen av en så kraftig modell? Anthropic hevder de har forberedt seg i måneder, men den komprimerte offentlige tidslinjen har vakt oppmerksomhet.
Markedsføringsskepsis. Noen observatører spør om dette delvis er en markedsføringsøvelse i forkant av Anthropics potensielle børsnotering, som posisjonerer selskapet som en ansvarlig forvalter av kraftig AI.
«Fordømt uansett»-dynamikken. Både å lansere modellen bredt og å begrense den har ulemper. Bred lansering risikerer å styrke angripere. Begrenset lansering risikerer å skape et permanent sikkerhetsskille. Det finnes ikke noe enkelt svar.
Anthropic planlegger å til slutt overføre styringen av Project Glasswing til «et uavhengig, tredjeparts organ» som koordinerer cybersikkerhetsprosjekter på tvers av privat og offentlig sektor.
Her er de konkrete veiene som er tilgjengelige i dag:
| Vei | Krav | Hvordan søke |
|---|---|---|
| Claude for Open Source | 5 000+ GitHub-stjerner eller 1M+ NPM-nedlastinger | Søk her |
| Cyber Verification Program | Sikkerhetsekspert-legitimasjoner | Kommer snart |
| Bedrift (Amazon Bedrock) | Bedriftsavtale | Gjennom AWS |
| Lanseringspartner | Organisasjon for kritisk infrastruktur | Kun på invitasjon |
For de fleste utviklere er Claude for Open Source-programmet det realistiske inngangspunktet. Hvis du vedlikeholder et kvalifiserende prosjekt, søk nå — programmet gir Claude-tilgang for sikkerhetsanalyse av kodebasen din.
Project Glasswing er det mest ambisiøse AI-drevne cybersikkerhetsinitiativet til dags dato. Det kobler en AI-modell som kan finne tiår gamle zero-days autonomt med organisasjonene som er ansvarlige for verdens mest kritiske programvare.
Den begrensede tilgangsmodellen er kontroversiell, men uten tvil nødvendig — de samme evnene som gjør Mythos til en eksepsjonell forsvarer, ville gjøre den til en eksepsjonell angriper i feil hender. Foreløpig flyter fordelene gjennom koordinert avsløring og oppdatering til hele økosystemet.
For utviklere er konklusjonen praktisk: avhengighetene i programvaren din vil snart bli gransket grundigere enn noen gang. Sårbarhetene som Mythos finner i dag, vil bli oppdateringer i de kommende månedene. Hold avhengighetene dine oppdatert, følg med på sikkerhetsrådgivninger, og hvis du vedlikeholder et kvalifiserende åpen kildekode-prosjekt, søk om Claude for Open Source-programmet.
Tiden for AI-drevet sårbarhetssoppdagelse er her. Project Glasswing er det første koordinerte forsøket på å sikre at forsvarerne beveger seg først.
Bygget med FlowHunt . Hold deg oppdatert om den siste utviklingen innen AI og cybersikkerhet på bloggen vår.
Viktor Zeman er medeier av QualityUnit. Selv etter 20 år som leder av selskapet, er han fortsatt først og fremst en programvareingeniør, med spesialisering innen AI, programmatisk SEO og backend-utvikling. Han har bidratt til en rekke prosjekter, inkludert LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab og mange flere.

FlowHunt hjelper deg med å bygge automatiserte AI-pipelines med bedriftsklasse sikkerhet — med de beste tilgjengelige modellene, inkludert Claude.

Jailbreaking av AI-chatboter omgår sikkerhetsbarrierer for å få modellen til å oppføre seg utenfor sine tiltenkte grenser. Lær de vanligste teknikkene — DAN, ro...

OpenAIs $500B-verdsettelse møter kritikk ettersom kommersialiserte AI-modeller og åpen kildekode-alternativer utligner konkurransen. Oppdag hvorfor Anthropics e...

Utforsk den skjulte infrastrukturen bak AI-systemer. Lær hvordan datasentre fungerer, deres strømbehov, kjølesystemer, byggetid og de enorme investeringene som ...