
Pencereleme
Yapay zekada pencereleme, verilerin segmentler veya “pencereler” halinde işlenerek ardışık bilgilerin verimli bir şekilde analiz edilmesidir. NLP ve Büyük Dil M...

Bağlam penceresi manipülasyonu, büyük dil modellerinin sınırlı bağlam penceresini istismar eden saldırıları ifade eder — bağlam doldurma, bağlam taşması ve stratejik zehirleme dahil — performansı düşürmek, kötü amaçlı yükleri gizlemek veya önceki talimatları geçersiz kılmak için.
Bağlam penceresi, büyük dil modeli dağıtımlarındaki en önemli ve en az anlaşılan güvenlik sınırlarından biridir. LLM’nin tek bir çıkarım çağrısı sırasında erişebileceği bilgileri tanımlar — ve saldırganların kasıtlı olarak istismar edebileceği sınırlı bir kaynaktır.
Büyük bir dil modeli metni token olarak işler (token başına yaklaşık 3/4 kelime). Bağlam penceresi, modelin bir seferde işleyebileceği maksimum token sayısını tanımlar. Modern modeller 4K’dan 1M’den fazla token’a kadar değişir, ancak hepsinin sınırları vardır.
Bağlam penceresi içinde, LLM şunları işler:
Bunların tümü model için birleşik bir akış olarak görünür. Modelin farklı kaynaklardan gelen talimatları farklı şekilde ele almak için doğal bir mekanizması yoktur — ve bağlamın belirli bölümlerine olan dikkati tekdüze değildir.
Saldırgan, önceki içeriği (özellikle sistem istemini) modelin mevcut konumundan daha uzağa itmek için son derece büyük bir girdi sunar — genellikle uzun bir belge, kod bloğu veya metin dökümü.
Araştırmalar, LLM’lerin “ortada kaybolma” davranışı sergilediğini göstermektedir: uzun bağlamların başındaki ve sonundaki içeriğe daha fazla dikkat ederler ve ortadaki bilgilere daha az dikkat ederler. Bağlamı sel baskınıyla doldurarak, bir saldırgan kötü amaçlı yükünü stratejik olarak konumlandırabilir (genellikle sonda) ve önceki güvenlik talimatları düşük dikkat orta bölgesine doğru kayar.
Pratik örnek: Bir chatbot’un sistem istemi, rakip ürünleri tartışamayacağını belirler. Bir saldırgan, 50.000 token’lık bir belge ve ardından rakipler hakkında soru soran bir istem gönderir. Sistem istemi talimatı etkili bir şekilde seyreltilmiştir.
Bağlam dolduğunda, LLM veya altyapısı neyin atılacağına karar vermelidir. Kesme yeniliğe öncelik veriyorsa (önce en eski içeriği atıyorsa), bir saldırgan sistem istemini tamamen ortadan kaldırmak için bağlamı taşırabilir — modeli yalnızca kullanıcı tarafından sağlanan bağlamla çalışır halde bırakır.
Saldırı sırası:
RAG sistemlerinde, alınan belgeler önemli bağlam alanı tüketir. Neyin alınacağını etkileyebilen bir saldırgan (RAG zehirleme yoluyla), bağlamı seçici olarak hedeflerine hizmet eden içerikle doldurabilir ve meşru bilgileri dışarıda bırakabilir.
Araştırmalar, bağlamdaki belirli konumlardaki talimatların orantısız etkiye sahip olduğunu belirlemiştir. Bağlam montajını anlayan saldırganlar, yüklerine göre yüksek dikkat konumlarına inmek için tasarlanmış girdiler oluşturabilir.
Çok uzun bağlamları destekleyen modellerde (yüz binlerce token), saldırganlar gerçek kötü amaçlı istekten önce modelin politika ihlali çıktılar ürettiğini gösteren yüzlerce “gösterim” örneği gömebilir. Bu gösterimlerle koşullandırılan model, uyma olasılığı önemli ölçüde daha yüksektir.
Tüm güvenlik açısından kritik talimatları yalnızca sistem isteminin başına yerleştirmeyin. Anahtar kısıtlamaları sistem isteminin sonunda tekrarlayın ve uzun konuşmalarda kilit noktalara kısa hatırlatmalar enjekte etmeyi düşünün.
Kullanım durumunuza uygun maksimum girdi uzunluğu sınırları uygulayın. Bir müşteri hizmetleri chatbot’unun nadiren 100.000 token’lık girdileri işlemesi gerekir — bunu sınırlamak sel baskını saldırısı riskini azaltır.
Bağlam boyutlarını ve bileşimini günlüğe kaydedin ve izleyin. Olağandışı büyük girdiler, hızlı bağlam büyümesi veya beklenmeyen bağlam bileşimi potansiyel saldırı göstergeleridir.
Uzun süreli konuşmalar için, ham konuşma geçmişi yerine anahtar gerçekleri ve kısıtlamaları koruyan bağlam özetleme uygulayın. Bu, konuşma sürekliliğini korurken taşma saldırılarına direnç gösterir.
AI penetrasyon testi çalışmalarına bağlam manipülasyon senaryolarını dahil edin. Güvenlik davranışlarının uzun bağlamlarda tutarlı olup olmadığını ve sistem istemlerinin bağlam sel baskınından sonra etkili kalıp kalmadığını test edin.
Bağlam penceresi, büyük bir dil modelinin bir seferde işleyebileceği metin miktarıdır (token olarak ölçülür). Sistem istemi, konuşma geçmişi, alınan belgeler ve araç çıktılarını içerir. Modelin bir oturum sırasında 'bildiği' her şey bu pencereye sığmalıdır.
Saldırganlar, erken talimatları (güvenlik korkulukları dahil) modelin etkili dikkat alanının dışına itmek için bağlamı alakasız içerikle doldurabilir, uzun bağlamlara gömülü ve filtreler tarafından gözden kaçan kötü amaçlı yükler enjekte edebilir veya kötü amaçlı içeriğin hayatta kalmasını sağlarken meşru talimatların kalmamasını sağlamak için bağlam kesme davranışlarını istismar edebilir.
Savunmalar şunları içerir: kritik talimatları bağlamda birden fazla noktaya sabitleme (sadece başlangıçta değil), bağlam boyutu sınırları uygulama, olağandışı büyük bağlam yüklerini izleme, uzun konuşmalar için bağlam özetleme kullanma ve güvenlik değerlendirmelerinde bağlam manipülasyon senaryolarını test etme.
Bağlam penceresi manipülasyonu hafife alınan bir saldırı yüzeyidir. Penetrasyon testimizde bağlam taşması ve stratejik zehirleme senaryoları yer almaktadır.

Yapay zekada pencereleme, verilerin segmentler veya “pencereler” halinde işlenerek ardışık bilgilerin verimli bir şekilde analiz edilmesidir. NLP ve Büyük Dil M...

Büyük Dil Modeli (LLM), insan dilini anlamak, üretmek ve üzerinde işlem yapmak için geniş metin verileriyle eğitilmiş bir yapay zeka türüdür. LLM'ler, metin üre...

FlowHunt’ta bulunan 5 popüler modelin yazma yeteneklerini test ederek içerik yazarlığı için en iyi LLM’yi bulduk ve sıraladık.