
Yapay Zeka Chatbotlarını Jailbreak Etmek: Teknikler, Örnekler ve Savunmalar
Yapay zeka chatbotlarını jailbreak etmek, modelin amaçlanan sınırlarının dışında davranmasını sağlamak için güvenlik korumalarını atlar. En yaygın teknikleri öğ...
Anthropic’in Project Glasswing girişimi, en güçlü yapay zeka modelini kullanarak kritik yazılımlarda binlerce sıfır gün açığı buluyor. Geliştiricilerin ve güvenlik uzmanlarının bilmesi gereken her şey burada.
Anthropic, Project Glasswing’i başlattı — dünyanın en büyük teknoloji şirketlerini, onlarca yıldır kritik yazılımlarda gizlenen açıkları bulabilecek kadar güçlü bir yapay zeka modeliyle buluşturan bir siber güvenlik girişimi. Model, her büyük işletim sistemi ve web tarayıcısındaki hatalar dahil olmak üzere binlerce sıfır gün açığını zaten keşfetti.
Bu bir ürün duyurusu veya yeni bir API özelliği değil. Yapay zeka destekli siber saldırıların geleceği ve en iyi savunmanın açıkları önce bulmanız gerektiği öncülüne dayanan koordineli bir savunma çabasıdır.
Project Glasswing, Anthropic tarafından 7 Nisan 2026’da başlatılan sektörler arası bir siber güvenlik girişimidir. Temel misyonu: saldırganlar istismar etmeden önce kritik yazılım altyapısındaki açıkları bulmak ve yamalamak için yapay zekayı kullanmak.
Girişim, Anthropic’in henüz yayınlanmamış en gelişmiş sınır modeli Claude Mythos Preview tarafından desteklenmektedir. Önceki Claude modellerinden farklı olarak Mythos, açık keşfi ve exploit geliştirme konusunda nitel bir sıçramayı temsil eden ortaya çıkan yeteneklere sahiptir — bunlar özel güvenlik eğitiminden değil, kod muhakemesindeki genel iyileştirmelerden kaynaklanmaktadır.
Anthropic’in argümanı açıktır: Yapay zeka modelleri, yazılım açıklarını bulma ve istismar etme konusunda çoğu insanı geçen bir yetenek düzeyine ulaşmıştır. Bu yetenekler yaygınlaştıkça, kötü niyetli aktörler kaçınılmaz olarak erişim kazanacaktır. Ekonomiler, kamu güvenliği ve ulusal güvenlik için sonuçlar ciddi olabilir. Project Glasswing, aynı gücü savunma amaçlı kullanan öncü bir yanıttır.
Sonuçlar çarpıcıdır. Claude Mythos Preview, yıllarca, bazen onlarca yıldır tespit edilmemiş binlerce sıfır gün açığını zaten keşfetti:
| Açık | Yazılım | Yaş | Detaylar |
|---|---|---|---|
| SACK uygulamasında işaretli tamsayı taşması | OpenBSD | 27 yıl | Ağ yığını açığı |
| Dilim sentinel çarpışması yoluyla H.264 codec exploit | FFmpeg | 16 yıl | Medya işleme açığı |
| Misafirden ana makineye bellek bozulması | Üretim bellek güvenli VMM | — | Hipervizör kaçışı |
| Çoklu açıklar | Tüm büyük işletim sistemleri ve web tarayıcıları | Çeşitli | Tüm yığın genelinde |
Ve sadece hata bulmakla kalmıyor — çalışan exploit’ler de geliştiriyor:
Keşfedilen açıkların %1’inden azı şimdiye kadar yamalanmıştır. Anthropic, açık detaylarını ifşa etmeden sahipliğini kanıtlamak için 90+45 günlük sorumlu açıklama zaman çizelgesi ve SHA-3 taahhüt hash’leri kullanmaktadır.
Claude Mythos Preview sadece artımlı olarak daha iyi değildir — kod güvenlik analizinde bir yetenek sıçramasını temsil eder.
| Kıyaslama | Mythos Preview | Opus 4.6 | Fark |
|---|---|---|---|
| CyberGym (açık analizi) | %83,1 | %66,6 | +16,5 |
| SWE-bench Pro | %77,8 | %53,4 | +24,4 |
| SWE-bench Verified | %93,9 | %80,8 | +13,1 |
| BrowseComp | %86,9 | %83,7 | +3,2 |
| GPQA Diamond (bilimsel muhakeme) | %94,6 | %91,3 | +3,3 |
| Humanity’s Last Exam (araçsız) | %56,8 | %40,0 | +16,8 |
| Humanity’s Last Exam (araçlı) | %64,7 | %53,1 | +11,6 |
Güvenlik farkı dramatiktir. 7.000 giriş noktasıyla yapılan bir OSS-Fuzz korpus testinde Mythos, 1-2 seviyelerinde 595 çökme ve 10 tam kontrol akışı ele geçirme gerçekleştirdi. Firefox 147’nin JavaScript motoru karşısında 181 çalışan exploit geliştirdi — Opus 4.6’nın yalnızca 2’sine kıyasla.
Anthropic’in kırmızı takımı, “Opus 4.6’nın otonom exploit geliştirmede neredeyse %0 başarı oranına sahip olduğunu” belirtmektedir. Mythos bu yetenekleri özel güvenlik eğitiminden almadı — kod muhakemesindeki genel iyileştirmelerden ortaya çıktı. Bu onu hem güçlü hem de endişe verici yapan şeydir.
Model bir ajansal iskelet içinde çalışır:
Bu statik bir tarayıcı değildir. Kod davranışını analiz eden, amaçlanan ile gerçek işlevselliği ayırt eden ve sadece bellek bozulma kalıplarını değil, kimlik doğrulama atlamaları gibi mantık açıklarını da tespit eden otonom bir ajandır.
Project Glasswing genel amaçlı bir geliştirici aracı değildir. Erişim kasıtlı olarak kısıtlanmıştır:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA ve Palo Alto Networks.
Kritik yazılım altyapısından sorumlu yaklaşık 40 ek kuruluş da erişime sahiptir.
5.000+ GitHub yıldızına veya aylık 1M+ NPM indirmesine sahip halka açık bir depo sürdürüyorsanız, Claude for Open Source programı aracılığıyla başvurabilirsiniz.
Bu, bireysel geliştiriciler için en erişilebilir yoldur. Program, özellikle açık kaynak projelerin güvenlik analizi için Claude erişimi sağlar.
Yakında açılacak Cyber Verification Program, meşru güvenlik uzmanlarının erişim için başvurmasına olanak tanıyacaktır. Detaylar henüz duyurulmadı, ancak muhtemelen profesyonel kimlik bilgileri veya kurumsal bağlılık gerektirecektir.
Claude Mythos Preview, kurumsal düzeyde güvenlik kontrolleri — müşteri tarafından yönetilen şifreleme, VPC izolasyonu ve detaylı günlük kaydı — ile Amazon Bedrock üzerinden sınırlı araştırma önizlemesi olarak mevcuttur.
Araştırma önizlemesinden sonra API fiyatlandırması, Claude API, Amazon Bedrock, Google Vertex AI ve Microsoft Foundry üzerinden milyon giriş/çıkış token başına 25$/125$ olacaktır.
Project Glasswing’e doğrudan erişiminiz olmasa bile, etkileri önemlidir:
Bağımlılıklarınız daha güvenli hale gelecek. Project Glasswing, diğer her şeyin üzerine inşa edildiği yazılımları tarıyor — işletim sistemleri, tarayıcılar, medya codec’leri, ağ yığınları, hipervizörler. Bu girişimden gelen yamalar tüm ekosistemin güvenliğini artıracaktır.
Açık ortamı değişiyor. Yapay zeka artık onlarca yıllık insan incelemesinin kaçırdığı hataları bulabiliyor. Bu, “güvenli kod"un ne anlama geldiğinin çıtasını yükseltiyor ve bilinen açık sınıflarının keşfedilip yamalanma süresini hızlandırıyor.
Yapay zeka destekli güvenlik araçları geliyor. Mythos’un bugün kısıtlı bir ortamda yapabildiğini, diğer modeller önümüzdeki yıllarda yaklaşacak. Güvenlik bilinçli geliştirme pratikleri ve araçları temel gereksinim haline gelecektir.
Açık kaynak orantısız fayda sağlıyor. Anthropic, Linux Foundation aracılığıyla Alpha-Omega ve OpenSSF’ye 2,5 milyon dolar, ayrıca Apache Software Foundation’a 1,5 milyon dolar taahhüt etmiştir. Katılımcılara sağlanan 100 milyon dolarlık model kullanım kredileriyle birlikte bu, açık kaynak güvenliğine önemli bir yatırımdır.
Herkes heyecanlı değil. Topluluk tepkileri karışık oldu:
Seçici erişim endişeleri. Eleştirmenler, erişimi büyük teknoloji şirketleriyle sınırlamanın bir asimetri yarattığını savunuyor — büyük kuruluşlar daha iyi güvenlik elde ederken küçük projeler ve şirketler dışarıda kalıyor. Bazıları bunu Anthropic’in kamu yararı şirketi statüsüyle çelişki olarak görüyor.
Güvenlik soruları. Bu kadar yetenekli bir modeli duyurmadan önce 24 saatlik dahili inceleme yeterli miydi? Anthropic aylardır hazırlandıklarını savunuyor, ancak sıkıştırılmış kamuoyu zaman çizelgesi incelemeye tabi tutuldu.
Pazarlama şüpheciliği. Bazı gözlemciler, bunun kısmen Anthropic’in potansiyel halka arzı öncesinde şirketi güçlü yapay zekanın sorumlu bir koruyucusu olarak konumlandıran bir pazarlama faaliyeti olup olmadığını sorguluyor.
“Ne yapsan yanlış” dinamiği. Modeli geniş çapta yayınlamanın da kısıtlamanın da dezavantajları var. Geniş yayın, saldırganları güçlendirme riski taşıyor. Kısıtlı yayın, kalıcı bir güvenlik uçurumu yaratma riski taşıyor. Temiz bir cevap yok.
Anthropic, Project Glasswing’in yönetimini sonunda özel ve kamu sektörleri genelinde siber güvenlik projelerini koordine eden “bağımsız, üçüncü taraf bir kuruluşa” devretmeyi planlıyor.
İşte bugün mevcut olan somut yollar:
| Yol | Gereksinimler | Nasıl Başvurulur |
|---|---|---|
| Claude for Open Source | 5.000+ GitHub yıldızı veya 1M+ NPM indirme | Buradan başvurun |
| Cyber Verification Program | Güvenlik uzmanı kimlik bilgileri | Yakında |
| Kurumsal (Amazon Bedrock) | Kurumsal anlaşma | AWS aracılığıyla |
| Lansman Ortağı | Kritik altyapı kuruluşu | Davet ile |
Çoğu geliştirici için Claude for Open Source programı gerçekçi giriş noktasıdır. Uygun bir proje sürdürüyorsanız, şimdi başvurun — program, kod tabanınızın güvenlik analizi için Claude erişimi sağlar.
Project Glasswing, bugüne kadarki en iddialı yapay zeka destekli siber güvenlik girişimidir. Onlarca yıllık sıfır gün açıklarını otonom olarak bulabilen bir yapay zeka modelini, dünyanın en kritik yazılımlarından sorumlu kuruluşlarla buluşturur.
Kısıtlı erişim modeli tartışmalıdır ancak tartışmasız gereklidir — Mythos’u olağanüstü bir savunucu yapan aynı yetenekler, yanlış ellerde olağanüstü bir saldırgan yapar. Şimdilik faydalar, koordineli açıklama ve yamalama yoluyla tüm ekosisteme akmaktadır.
Geliştiriciler için çıkarım pratiktir: yazılımınızın bağımlılıkları, şimdiye kadar sahip oldukları en yoğun güvenlik incelemesini almak üzeredir. Mythos’un bugün bulduğu açıklar, önümüzdeki aylarda yamalara dönüşecektir. Bağımlılıklarınızı güncel tutun, güvenlik uyarılarını takip edin ve uygun bir açık kaynak proje sürdürüyorsanız Claude for Open Source programına başvurun.
Yapay zeka destekli açık keşfi çağı geldi. Project Glasswing, savunucuların önce hareket etmesini sağlamak için ilk koordineli girişimdir.
FlowHunt ile oluşturuldu. Yapay zeka ve siber güvenlik alanındaki en son gelişmelerden haberdar olmak için blogumuzu takip edin.
Viktor Zeman, QualityUnit'in ortaklarından biridir. Şirketi 20 yıl boyunca yönettikten sonra bile, öncelikli olarak bir yazılım mühendisi olarak kalmaya devam etmektedir; yapay zeka, programatik SEO ve arka uç geliştirme konularında uzmanlaşmıştır. LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab ve daha birçok projeye katkıda bulunmuştur.

FlowHunt, Claude dahil en iyi modelleri kullanarak kurumsal düzeyde güvenlikle otomatik yapay zeka iş akışları oluşturmanıza yardımcı olur.

Yapay zeka chatbotlarını jailbreak etmek, modelin amaçlanan sınırlarının dışında davranmasını sağlamak için güvenlik korumalarını atlar. En yaygın teknikleri öğ...

OpenAI'nin 500 milyar dolarlık değerlemesi, metalaşan yapay zekâ modelleri ve açık kaynak alternatifleriyle rekabetin eşitlenmesiyle sorgulanıyor. Anthropic'in ...

Anthropic'in kurucu ortağı Jack Clark'ın yapay zeka güvenliği konusundaki endişelerini, büyük dil modellerinde durumsal farkındalığı ve yapay genel zekanın gele...
Çerez Onayı
Göz atma deneyiminizi geliştirmek ve trafiğimizi analiz etmek için çerezleri kullanıyoruz. See our privacy policy.