
AI 안전과 AGI: Anthropic의 인공지능 일반지능 경고
Anthropic 공동 창업자 잭 클락의 AI 안전성, 대형 언어 모델의 상황 인식, 그리고 인공지능 일반지능의 미래를 형성하는 규제 환경에 대한 우려를 살펴봅니다....
Anthropic이 Project Glasswing을 출범했습니다. 세계 최대 기술 기업들과 수십 년간 핵심 소프트웨어에 숨어 있던 취약점을 찾아낼 수 있을 만큼 강력한 AI 모델을 결합하는 사이버 보안 이니셔티브입니다. 이 모델은 이미 모든 주요 운영 체제와 웹 브라우저의 버그를 포함해 수천 개의 제로데이 취약점을 발견했습니다.
이것은 제품 발표나 새로운 API 기능이 아닙니다. AI 기반 사이버 공격이 다가오고 있으며, 최선의 방어는 취약점을 먼저 찾는 것이라는 전제 위에 구축된 조율된 방어 노력입니다.
Project Glasswing은 2026년 4월 7일 Anthropic이 출범한 산업 간 사이버 보안 이니셔티브입니다. 핵심 미션은 공격자가 악용하기 전에 AI를 사용해 핵심 소프트웨어 인프라의 취약점을 찾아 패치하는 것입니다.
이 이니셔티브는 Anthropic의 가장 진보된 미공개 프론티어 모델인 Claude Mythos Preview에 의해 구동됩니다. 이전 Claude 모델과 달리, Mythos는 명시적인 보안 훈련이 아닌 코드 추론의 전반적 개선으로부터 취약점 발견 및 익스플로잇 개발에서 질적 도약을 나타내는 창발적 역량을 보유하고 있습니다.
Anthropic의 주장은 명확합니다. AI 모델이 소프트웨어 취약점을 찾고 악용하는 데 있어 대부분의 인간을 능가하는 역량 수준에 도달했다는 것입니다. 이러한 역량이 확산됨에 따라 악의적 행위자도 불가피하게 접근하게 됩니다. 경제, 공공 안전, 국가 안보에 대한 피해는 심각할 수 있습니다. Project Glasswing은 동일한 능력을 방어적으로 사용하는 선제적 대응입니다.
결과는 놀랍습니다. Claude Mythos Preview는 이미 수천 개의 제로데이 취약점을 발견했으며, 그중 일부는 수년에서 수십 년간 탐지되지 않았던 버그입니다.
| 취약점 | 소프트웨어 | 존속 기간 | 세부 사항 |
|---|---|---|---|
| SACK 구현의 부호 있는 정수 오버플로 | OpenBSD | 27년 | 네트워크 스택 취약점 |
| 슬라이스 센티넬 충돌을 통한 H.264 코덱 익스플로잇 | FFmpeg | 16년 | 미디어 처리 취약점 |
| 게스트-호스트 메모리 손상 | 프로덕션 메모리 안전 VMM | — | 하이퍼바이저 탈출 |
| 다수의 취약점 | 모든 주요 OS 및 웹 브라우저 | 다양 | 전체 스택에 걸침 |
그리고 단순히 버그를 찾는 데 그치지 않고 실제 동작하는 익스플로잇을 개발합니다:
발견된 취약점 중 패치된 것은 1% 미만입니다. Anthropic은 90+45일 책임 있는 공개 타임라인과 SHA-3 커밋 해시를 사용하여 취약점 세부 정보를 공개하지 않으면서 보유를 증명합니다.
Claude Mythos Preview는 단순히 점진적으로 개선된 것이 아닙니다. 코드 보안 분석에서 역량의 도약을 나타냅니다.
| 벤치마크 | Mythos Preview | Opus 4.6 | 차이 |
|---|---|---|---|
| CyberGym (취약점 분석) | 83.1% | 66.6% | +16.5 |
| SWE-bench Pro | 77.8% | 53.4% | +24.4 |
| SWE-bench Verified | 93.9% | 80.8% | +13.1 |
| BrowseComp | 86.9% | 83.7% | +3.2 |
| GPQA Diamond (과학적 추론) | 94.6% | 91.3% | +3.3 |
| Humanity’s Last Exam (도구 없이) | 56.8% | 40.0% | +16.8 |
| Humanity’s Last Exam (도구 포함) | 64.7% | 53.1% | +11.6 |
보안 격차는 극적입니다. 7,000개 진입점이 있는 OSS-Fuzz 코퍼스 테스트에서 Mythos는 1-2 등급에서 595건의 크래시를 달성했으며, 그중 10건은 완전한 제어 흐름 하이재킹이었습니다. Firefox 147의 JavaScript 엔진에 대해 181개의 동작하는 익스플로잇을 개발했는데, Opus 4.6은 단 2개에 그쳤습니다.
Anthropic의 레드팀은 “Opus 4.6은 자율 익스플로잇 개발에서 거의 0%의 성공률을 보였다"고 언급했습니다. Mythos는 전문 보안 훈련이 아닌 코드 추론의 전반적 개선에서 이러한 역량을 얻었습니다. 이것이 이 모델을 강력하면서도 우려스럽게 만드는 요인입니다.
이 모델은 에이전트 스캐폴드 내에서 작동합니다:
이것은 정적 스캐너가 아닙니다. 코드 동작을 추론하고, 의도된 기능과 실제 기능을 구별하며, 메모리 손상 패턴뿐만 아니라 인증 우회와 같은 로직 취약점도 식별하는 자율 에이전트입니다.
Project Glasswing은 범용 개발자 도구가 아닙니다. 접근은 의도적으로 제한됩니다:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
핵심 소프트웨어 인프라를 담당하는 약 40개의 추가 조직도 접근 권한을 보유하고 있습니다.
GitHub 스타 5,000개 이상 또는 월간 NPM 다운로드 100만 회 이상의 공개 저장소를 유지하고 있다면 Claude for Open Source 프로그램을 통해 신청할 수 있습니다.
이것이 개인 개발자에게 가장 접근하기 쉬운 경로입니다. 이 프로그램은 오픈소스 프로젝트의 보안 분석을 위해 특별히 Claude 접근을 제공합니다.
곧 출시될 Cyber Verification Program을 통해 정당한 보안 전문가가 접근을 신청할 수 있습니다. 세부 사항은 아직 발표되지 않았지만, 전문 자격 증명이나 조직 소속이 필요할 것으로 보입니다.
Claude Mythos Preview는 고객 관리 암호화, VPC 격리, 상세 로깅 등 엔터프라이즈급 보안 제어가 적용된 Amazon Bedrock의 게이트 리서치 프리뷰를 통해 이용 가능합니다.
리서치 프리뷰 이후, API 가격은 Claude API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry를 통해 입력/출력 백만 토큰당 $25 / $125입니다.
Project Glasswing에 직접 접근하지 못하더라도 그 영향은 상당합니다:
의존성의 보안이 강화됩니다. Project Glasswing은 모든 것이 그 위에 구축된 소프트웨어 — 운영 체제, 브라우저, 미디어 코덱, 네트워크 스택, 하이퍼바이저 — 를 스캔하고 있습니다. 이 이니셔티브에서 나오는 패치는 전체 생태계의 보안을 향상시킵니다.
취약점 환경이 변화하고 있습니다. AI는 이제 수십 년간 인간 리뷰가 놓친 버그를 찾을 수 있습니다. 이는 “안전한 코드"의 의미에 대한 기준을 높이고, 알려진 취약점 유형이 발견되고 패치되는 타임라인을 앞당깁니다.
AI 기반 보안 도구가 다가오고 있습니다. 오늘날 Mythos가 제한된 환경에서 할 수 있는 것을 다른 모델들이 수년 내에 따라잡을 것입니다. 보안을 인식하는 개발 관행과 도구가 기본이 될 것입니다.
오픈소스가 가장 큰 혜택을 받습니다. Anthropic은 Linux Foundation을 통해 Alpha-Omega 및 OpenSSF에 250만 달러, Apache Software Foundation에 150만 달러를 약정했습니다. 참가자를 위한 1억 달러의 모델 사용 크레딧과 결합하면, 이는 오픈소스 보안에 대한 상당한 투자입니다.
모두가 열광하는 것은 아닙니다. 커뮤니티 반응은 엇갈리고 있습니다:
선별적 접근에 대한 우려. 비평가들은 대형 기술 기업에만 접근을 제한하면 비대칭이 생긴다고 주장합니다. 대기업은 더 나은 보안을 얻고, 소규모 프로젝트와 기업은 소외됩니다. 일부는 이것이 Anthropic의 공익 기업 지위와 모순된다고 봅니다.
안전성 의문. 이렇게 강력한 모델을 발표하기 전 24시간의 내부 검토가 충분했을까요? Anthropic은 수개월간 준비해왔다고 주장하지만, 압축된 공개 타임라인에 대한 조사가 이어지고 있습니다.
마케팅 회의론. 일부 관찰자들은 이것이 Anthropic의 잠재적 IPO를 앞두고 회사를 강력한 AI의 책임 있는 관리자로 자리매김하는 마케팅 활동의 일부가 아닌지 의문을 제기합니다.
“어떻게 해도 비판받는” 역학. 모델을 널리 공개하는 것과 제한하는 것 모두 단점이 있습니다. 광범위한 공개는 공격자에게 힘을 실어줄 위험이 있고, 제한된 공개는 영구적인 보안 격차를 만들 위험이 있습니다. 깔끔한 답은 없습니다.
Anthropic은 궁극적으로 Project Glasswing의 거버넌스를 민간 및 공공 부문에 걸쳐 사이버 보안 프로젝트를 조율하는 “독립적인 제3자 기관"으로 이관할 계획입니다.
현재 이용 가능한 구체적인 경로는 다음과 같습니다:
| 경로 | 요건 | 신청 방법 |
|---|---|---|
| Claude for Open Source | GitHub 스타 5,000+ 또는 NPM 다운로드 100만+ | 여기서 신청 |
| Cyber Verification Program | 보안 전문가 자격 증명 | 곧 출시 |
| 엔터프라이즈 (Amazon Bedrock) | 엔터프라이즈 계약 | AWS를 통해 |
| 출범 파트너 | 핵심 인프라 조직 | 초청에 의해 |
대부분의 개발자에게 Claude for Open Source 프로그램이 현실적인 진입점입니다. 자격을 갖춘 프로젝트를 유지하고 있다면 지금 바로 신청하세요. 이 프로그램은 코드베이스의 보안 분석을 위한 Claude 접근을 제공합니다.
Project Glasswing은 지금까지 가장 야심 찬 AI 기반 사이버 보안 이니셔티브입니다. 수십 년 된 제로데이를 자율적으로 찾을 수 있는 AI 모델과 세계에서 가장 중요한 소프트웨어를 담당하는 조직을 결합합니다.
제한된 접근 모델은 논란이 있지만 어쩌면 필요한 것입니다. Mythos를 뛰어난 방어자로 만드는 동일한 역량이 잘못된 손에 들어가면 뛰어난 공격자로 만들 수 있기 때문입니다. 현재로서는 조율된 공개와 패치를 통해 전체 생태계에 혜택이 흘러갑니다.
개발자에게 시사점은 실용적입니다. 여러분의 소프트웨어 의존성이 이전보다 훨씬 더 많은 보안 검토를 받게 됩니다. Mythos가 오늘 발견하는 취약점은 앞으로 몇 달 안에 패치가 될 것입니다. 의존성을 최신 상태로 유지하고, 보안 권고를 주시하며, 자격을 갖춘 오픈소스 프로젝트를 유지하고 있다면 Claude for Open Source 프로그램에 신청하세요.
AI 기반 취약점 발견의 시대가 도래했습니다. Project Glasswing은 방어자가 먼저 움직이도록 보장하는 첫 번째 조율된 시도입니다.
빅토르 제만은 QualityUnit의 공동 소유주입니다. 20년이 넘는 기간 동안 회사를 이끌어왔지만, 여전히 주로 소프트웨어 엔지니어로서 AI, 프로그램적 SEO, 백엔드 개발을 전문으로 하고 있습니다. 그는 LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab 등 수많은 프로젝트에 기여해왔습니다.


Anthropic 공동 창업자 잭 클락의 AI 안전성, 대형 언어 모델의 상황 인식, 그리고 인공지능 일반지능의 미래를 형성하는 규제 환경에 대한 우려를 살펴봅니다....

사이버보안에서의 인공지능(AI)은 기계 학습과 자연어 처리(NLP)와 같은 AI 기술을 활용하여 사이버 위협을 탐지, 예방 및 대응하며, 대응 자동화, 데이터 분석, 위협 인텔리전스 강화를 통해 견고한 디지털 방어체계를 구축합니다....

AI 챗봇 탈옥은 안전 가드레일을 우회하여 모델이 의도된 경계 밖에서 작동하도록 만듭니다. DAN, 역할극, 토큰 조작 등 가장 일반적인 기술과 챗봇을 방어하는 방법을 알아보세요....