
AIの安全性とAGI:Anthropicが警告する人工汎用知能のリスク
Anthropic共同創業者ジャック・クラークによるAIの安全性、大規模言語モデルの状況認識、そして人工汎用知能の未来を形作る規制環境についての懸念を探る。...
Anthropicが発表したProject Glasswingは、世界最大手のテクノロジー企業と、重要ソフトウェアに数十年間潜んでいた脆弱性を発見できるほど強力なAIモデルを組み合わせたサイバーセキュリティイニシアチブです。このモデルはすでに、すべての主要オペレーティングシステムとウェブブラウザのバグを含む、数千件のゼロデイ脆弱性を発見しています。
これは製品発表でも、新しいAPI機能でもありません。AIを活用したサイバー攻撃の到来を前提とし、先に脆弱性を見つけることが最善の防御であるという考えに基づいた、協調的な防御の取り組みです。
Project Glasswingは、2026年4月7日にAnthropicが発表した業界横断型のサイバーセキュリティイニシアチブです。その中核的使命は、攻撃者が悪用する前に、AIを使って重要ソフトウェアインフラの脆弱性を発見・修正することです。
このイニシアチブは、Anthropicの最先端未公開フロンティアモデルであるClaude Mythos Previewを基盤としています。これまでのClaudeモデルとは異なり、Mythosは脆弱性発見とエクスプロイト開発において、質的飛躍を表す創発的能力を持っています。これはセキュリティに特化したトレーニングではなく、コード推論の全般的な向上から生まれたものです。
Anthropicの主張はシンプルです。AIモデルはすでに、ソフトウェアの脆弱性の発見と悪用において大半の人間を超える能力レベルに達しています。こうした能力が普及するにつれ、悪意あるアクターが不可避的にアクセスを得るでしょう。経済、公共の安全、国家安全保障への影響は深刻になり得ます。Project Glasswingはその先制対応として、同じ力を防御に活用するものです。
その成果は驚くべきものです。Claude Mythos Previewはすでに数千件のゼロデイ脆弱性を発見しています。これらは数年、時には数十年にわたって検出されなかったバグです:
| 脆弱性 | ソフトウェア | 存在期間 | 詳細 |
|---|---|---|---|
| SACK実装における符号付き整数オーバーフロー | OpenBSD | 27年 | ネットワークスタックの脆弱性 |
| スライスセンチネル衝突によるH.264コーデックエクスプロイト | FFmpeg | 16年 | メディア処理の脆弱性 |
| ゲストからホストへのメモリ破壊 | プロダクション向けメモリ安全VMM | — | ハイパーバイザエスケープ |
| 複数の脆弱性 | すべての主要OSとウェブブラウザ | 様々 | フルスタックにわたる |
そして単にバグを見つけるだけでなく、実用的なエクスプロイトも開発します:
発見された脆弱性のうち、修正済みのものは1%未満です。Anthropicは90日+45日の責任ある情報開示タイムラインとSHA-3コミットメントハッシュを使用し、脆弱性の詳細を明かすことなく情報の保有を証明しています。
Claude Mythos Previewは単なる漸進的改善ではなく、コードセキュリティ分析における能力の飛躍を表しています。
| ベンチマーク | Mythos Preview | Opus 4.6 | 差分 |
|---|---|---|---|
| CyberGym(脆弱性分析) | 83.1% | 66.6% | +16.5 |
| SWE-bench Pro | 77.8% | 53.4% | +24.4 |
| SWE-bench Verified | 93.9% | 80.8% | +13.1 |
| BrowseComp | 86.9% | 83.7% | +3.2 |
| GPQA Diamond(科学的推論) | 94.6% | 91.3% | +3.3 |
| Humanity’s Last Exam(ツールなし) | 56.8% | 40.0% | +16.8 |
| Humanity’s Last Exam(ツールあり) | 64.7% | 53.1% | +11.6 |
セキュリティにおける差は歴然です。7,000のエントリポイントを持つOSS-Fuzzコーパステストで、Mythosはティア1-2で595回のクラッシュと10回の完全な制御フロー乗っ取りを達成しました。Firefox 147のJavaScriptエンジンに対しては、Opus 4.6のわずか2件に対し、181件の実用的なエクスプロイトを開発しました。
Anthropicのレッドチームは「Opus 4.6の自律的エクスプロイト開発の成功率はほぼ0%だった」と指摘しています。Mythosはセキュリティに特化したトレーニングからこれらの能力を得たのではなく、コード推論の全般的な向上から創発したものです。これこそが強力であると同時に懸念される理由です。
このモデルはエージェンティックスキャフォールド内で動作します:
これは静的スキャナーではありません。コードの動作を推論し、意図された機能と実際の機能を区別し、メモリ破壊パターンだけでなく認証バイパスのようなロジック脆弱性を特定する自律型エージェントです。
Project Glasswingは汎用の開発者ツールではありません。アクセスは意図的に制限されています:
Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。
重要ソフトウェアインフラを管理する約40の追加組織もアクセス権を持っています。
GitHub スター数5,000以上またはNPM月間ダウンロード数100万以上のパブリックリポジトリをメンテナンスしている場合、Claude for Open Source プログラムを通じて申請できます。
これは個人開発者にとって最もアクセスしやすいルートです。このプログラムは、オープンソースプロジェクトのセキュリティ分析に特化したClaudeアクセスを提供します。
今後発表されるCyber Verification Programにより、正当なセキュリティ専門家がアクセスを申請できるようになります。詳細はまだ発表されていませんが、専門資格や組織への所属が必要になる可能性があります。
Claude Mythos Previewは、Amazon Bedrockを通じたゲート付きリサーチプレビューとして利用可能で、カスタマーマネージド暗号化、VPC分離、詳細なログ記録などエンタープライズグレードのセキュリティ管理が備わっています。
リサーチプレビュー後のAPI価格は、Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundryを通じて入力100万トークンあたり25ドル / 出力100万トークンあたり125ドルとなる予定です。
Project Glasswingに直接アクセスできなくても、その影響は大きいです:
依存関係のセキュリティが向上します。 Project Glasswingは、他のすべてのソフトウェアの基盤となるものをスキャンしています。オペレーティングシステム、ブラウザ、メディアコーデック、ネットワークスタック、ハイパーバイザです。このイニシアチブから生まれるパッチは、エコシステム全体のセキュリティを向上させます。
脆弱性の状況が変化しています。 AIは今や、数十年にわたる人間のレビューでも見逃されていたバグを発見できます。これは「安全なコード」の意味の基準を引き上げ、既知の脆弱性クラスが発見・修正されるタイムラインを加速させます。
AI搭載のセキュリティツールが登場します。 制限された環境でMythosが今日できることに、他のモデルも今後数年で近づくでしょう。セキュリティを意識した開発プラクティスやツールは必須となります。
オープンソースが不均衡な恩恵を受けます。 Anthropicは、Linux FoundationのAlpha-OmegaとOpenSSFに250万ドル、Apache Software Foundationに150万ドルの投資を約束しています。参加者向けの1億ドルのモデル使用クレジットと合わせ、オープンソースセキュリティへの大規模な投資です。
すべての人が歓迎しているわけではありません。コミュニティの反応はさまざまです:
選択的アクセスへの懸念。 批判者は、大手テクノロジー企業にアクセスを制限することで非対称性が生まれると主張しています。大規模組織はセキュリティが向上する一方、小規模なプロジェクトや企業は取り残されます。これはAnthropicの公益法人としてのステータスと矛盾すると見る向きもあります。
安全性への疑問。 これほど高い能力を持つモデルの発表前に、24時間の内部レビューで十分だったのでしょうか? Anthropicは数ヶ月前から準備してきたと主張していますが、圧縮されたパブリックタイムラインは精査の対象となっています。
マーケティングへの懐疑。 一部のオブザーバーは、これが部分的にはAnthropicの潜在的IPOに向けたマーケティング活動であり、強力なAIの責任あるスチュワードとしてのポジショニングではないかと疑問視しています。
「何をしても批判される」ジレンマ。 モデルの広範な公開にも制限された公開にも、それぞれデメリットがあります。広範な公開は攻撃者を強化するリスクがあります。制限された公開は恒久的なセキュリティ格差を生むリスクがあります。完璧な答えはありません。
Anthropicは最終的に、Project Glasswingのガバナンスを、官民のサイバーセキュリティプロジェクトを調整する「独立した第三者機関」に移行する計画です。
現在利用可能な具体的な方法は以下の通りです:
| ルート | 要件 | 申請方法 |
|---|---|---|
| Claude for Open Source | GitHub スター数5,000以上またはNPMダウンロード数100万以上 | こちらから申請 |
| Cyber Verification Program | セキュリティ専門家の資格 | 近日公開 |
| エンタープライズ(Amazon Bedrock) | エンタープライズ契約 | AWSを通じて |
| ローンチパートナー | 重要インフラ組織 | 招待制 |
ほとんどの開発者にとって、Claude for Open Sourceプログラムが現実的なエントリーポイントです。対象プロジェクトをメンテナンスしている場合は、今すぐ申請しましょう。このプログラムはコードベースのセキュリティ分析のためのClaudeアクセスを提供します。
Project Glasswingは、これまでで最も野心的なAI搭載サイバーセキュリティイニシアチブです。数十年前のゼロデイを自律的に発見できるAIモデルと、世界で最も重要なソフトウェアを管理する組織を結びつけます。
制限付きアクセスモデルは議論を呼んでいますが、おそらく必要なものです。Mythosを優れた防御者にしている能力は、悪用されれば優れた攻撃者にもなり得るからです。現時点では、協調的な情報開示とパッチ適用を通じて、その恩恵はエコシステム全体に行き渡ります。
開発者にとっての実用的なポイントは明確です。ソフトウェアの依存関係は、これまでにない規模のセキュリティ精査を受けることになります。Mythosが今日発見している脆弱性は、今後数ヶ月のうちにパッチとなるでしょう。依存関係を最新の状態に保ち、セキュリティアドバイザリを注視し、対象となるオープンソースプロジェクトをメンテナンスしている場合は、Claude for Open Sourceプログラムに申請してください。
AIによる脆弱性発見の時代が到来しました。Project Glasswingは、防御者が先に動くことを確実にするための、最初の協調的な取り組みです。
ヴィクトル・ゼマンはQualityUnitの共同所有者です。20年以上会社を率いてきた今も、主にソフトウェアエンジニアとして、AI、プログラム的SEO、バックエンド開発を専門としています。LiveAgent、PostAffiliatePro、FlowHunt、UrlsLabなど、数多くのプロジェクトに貢献してきました。


Anthropic共同創業者ジャック・クラークによるAIの安全性、大規模言語モデルの状況認識、そして人工汎用知能の未来を形作る規制環境についての懸念を探る。...

AIチャットボットのジェイルブレイクは、安全ガードレールをバイパスし、モデルを意図された境界外で動作させます。最も一般的な技術(DAN、ロールプレイ、トークン操作)と、チャットボットを防御する方法を学びましょう。...

Anthropicがモデルコンテキストプロトコル(MCP)を開発した理由、そしてAIモデルを実世界のアプリケーションやツールと接続するオープンソース標準として、それをLinux Foundationに寄贈した背景を解説します。...