Bağlam Penceresi Manipülasyonu

Bağlam penceresi, büyük dil modeli dağıtımlarındaki en önemli ve en az anlaşılan güvenlik sınırlarından biridir. LLM’nin tek bir çıkarım çağrısı sırasında erişebileceği bilgileri tanımlar — ve saldırganların kasıtlı olarak istismar edebileceği sınırlı bir kaynaktır.

Bağlam Penceresi Nedir?

Büyük bir dil modeli metni token olarak işler (token başına yaklaşık 3/4 kelime). Bağlam penceresi, modelin bir seferde işleyebileceği maksimum token sayısını tanımlar. Modern modeller 4K’dan 1M’den fazla token’a kadar değişir, ancak hepsinin sınırları vardır.

Bağlam penceresi içinde, LLM şunları işler:

  • Sistem istemi: Chatbot’un rolünü ve kısıtlamalarını belirleyen geliştirici tanımlı talimatlar
  • Konuşma geçmişi: Mevcut oturumdaki önceki turlar
  • Alınan içerik: RAG veya arama tarafından döndürülen belgeler, veritabanı sonuçları ve araç çıktıları
  • Kullanıcı girdisi: Mevcut kullanıcı mesajı

Bunların tümü model için birleşik bir akış olarak görünür. Modelin farklı kaynaklardan gelen talimatları farklı şekilde ele almak için doğal bir mekanizması yoktur — ve bağlamın belirli bölümlerine olan dikkati tekdüze değildir.

Bağlam Penceresi Saldırı Teknikleri

Bağlam Doldurma / Bağlam Sel Baskını

Saldırgan, önceki içeriği (özellikle sistem istemini) modelin mevcut konumundan daha uzağa itmek için son derece büyük bir girdi sunar — genellikle uzun bir belge, kod bloğu veya metin dökümü.

Araştırmalar, LLM’lerin “ortada kaybolma” davranışı sergilediğini göstermektedir: uzun bağlamların başındaki ve sonundaki içeriğe daha fazla dikkat ederler ve ortadaki bilgilere daha az dikkat ederler. Bağlamı sel baskınıyla doldurarak, bir saldırgan kötü amaçlı yükünü stratejik olarak konumlandırabilir (genellikle sonda) ve önceki güvenlik talimatları düşük dikkat orta bölgesine doğru kayar.

Pratik örnek: Bir chatbot’un sistem istemi, rakip ürünleri tartışamayacağını belirler. Bir saldırgan, 50.000 token’lık bir belge ve ardından rakipler hakkında soru soran bir istem gönderir. Sistem istemi talimatı etkili bir şekilde seyreltilmiştir.

Bağlam Taşması / Kesme İstismarı

Bağlam dolduğunda, LLM veya altyapısı neyin atılacağına karar vermelidir. Kesme yeniliğe öncelik veriyorsa (önce en eski içeriği atıyorsa), bir saldırgan sistem istemini tamamen ortadan kaldırmak için bağlamı taşırabilir — modeli yalnızca kullanıcı tarafından sağlanan bağlamla çalışır halde bırakır.

Saldırı sırası:

  1. Birçok turlu bir konuşma başlatın
  2. Bağlam tüketimini maksimize etmek için uzun yanıtlar oluşturun
  3. Sistem istemi içeriği kesilene kadar devam edin
  4. Şimdi rakip sistem istemi olmadan kötü amaçlı talimatlar verin

Alınan İçerik Yoluyla Bağlam Zehirleme

RAG sistemlerinde, alınan belgeler önemli bağlam alanı tüketir. Neyin alınacağını etkileyebilen bir saldırgan (RAG zehirleme yoluyla), bağlamı seçici olarak hedeflerine hizmet eden içerikle doldurabilir ve meşru bilgileri dışarıda bırakabilir.

Konumsal Enjeksiyon

Araştırmalar, bağlamdaki belirli konumlardaki talimatların orantısız etkiye sahip olduğunu belirlemiştir. Bağlam montajını anlayan saldırganlar, yüklerine göre yüksek dikkat konumlarına inmek için tasarlanmış girdiler oluşturabilir.

Çok Atışlı Enjeksiyon

Çok uzun bağlamları destekleyen modellerde (yüz binlerce token), saldırganlar gerçek kötü amaçlı istekten önce modelin politika ihlali çıktılar ürettiğini gösteren yüzlerce “gösterim” örneği gömebilir. Bu gösterimlerle koşullandırılan model, uyma olasılığı önemli ölçüde daha yüksektir.

Logo

İşinizi büyütmeye hazır mısınız?

Bugün ücretsiz denemenizi başlatın ve günler içinde sonuçları görün.

Bağlam Penceresi Manipülasyonuna Karşı Savunmalar

Kritik Talimatları Sabitleyin

Tüm güvenlik açısından kritik talimatları yalnızca sistem isteminin başına yerleştirmeyin. Anahtar kısıtlamaları sistem isteminin sonunda tekrarlayın ve uzun konuşmalarda kilit noktalara kısa hatırlatmalar enjekte etmeyi düşünün.

Bağlam Boyutu Sınırları

Kullanım durumunuza uygun maksimum girdi uzunluğu sınırları uygulayın. Bir müşteri hizmetleri chatbot’unun nadiren 100.000 token’lık girdileri işlemesi gerekir — bunu sınırlamak sel baskını saldırısı riskini azaltır.

Bağlam İzleme

Bağlam boyutlarını ve bileşimini günlüğe kaydedin ve izleyin. Olağandışı büyük girdiler, hızlı bağlam büyümesi veya beklenmeyen bağlam bileşimi potansiyel saldırı göstergeleridir.

Uzun Konuşmalar İçin Özetleme

Uzun süreli konuşmalar için, ham konuşma geçmişi yerine anahtar gerçekleri ve kısıtlamaları koruyan bağlam özetleme uygulayın. Bu, konuşma sürekliliğini korurken taşma saldırılarına direnç gösterir.

Düşman Bağlam Testi

AI penetrasyon testi çalışmalarına bağlam manipülasyon senaryolarını dahil edin. Güvenlik davranışlarının uzun bağlamlarda tutarlı olup olmadığını ve sistem istemlerinin bağlam sel baskınından sonra etkili kalıp kalmadığını test edin.

İlgili Terimler

Sıkça sorulan sorular

LLM'de bağlam penceresi nedir?

Bağlam penceresi, büyük bir dil modelinin bir seferde işleyebileceği metin miktarıdır (token olarak ölçülür). Sistem istemi, konuşma geçmişi, alınan belgeler ve araç çıktılarını içerir. Modelin bir oturum sırasında 'bildiği' her şey bu pencereye sığmalıdır.

Saldırganlar bağlam penceresini nasıl istismar edebilir?

Saldırganlar, erken talimatları (güvenlik korkulukları dahil) modelin etkili dikkat alanının dışına itmek için bağlamı alakasız içerikle doldurabilir, uzun bağlamlara gömülü ve filtreler tarafından gözden kaçan kötü amaçlı yükler enjekte edebilir veya kötü amaçlı içeriğin hayatta kalmasını sağlarken meşru talimatların kalmamasını sağlamak için bağlam kesme davranışlarını istismar edebilir.

Bağlam penceresi manipülasyonuna karşı nasıl korunursunuz?

Savunmalar şunları içerir: kritik talimatları bağlamda birden fazla noktaya sabitleme (sadece başlangıçta değil), bağlam boyutu sınırları uygulama, olağandışı büyük bağlam yüklerini izleme, uzun konuşmalar için bağlam özetleme kullanma ve güvenlik değerlendirmelerinde bağlam manipülasyon senaryolarını test etme.

Chatbot'unuzu Bağlam Tabanlı Saldırılara Karşı Test Edin

Bağlam penceresi manipülasyonu hafife alınan bir saldırı yüzeyidir. Penetrasyon testimizde bağlam taşması ve stratejik zehirleme senaryoları yer almaktadır.

Daha fazla bilgi

Pencereleme
Pencereleme

Pencereleme

Yapay zekada pencereleme, verilerin segmentler veya “pencereler” halinde işlenerek ardışık bilgilerin verimli bir şekilde analiz edilmesidir. NLP ve Büyük Dil M...

6 dakika okuma
AI NLP +5
Büyük Dil Modeli (LLM)
Büyük Dil Modeli (LLM)

Büyük Dil Modeli (LLM)

Büyük Dil Modeli (LLM), insan dilini anlamak, üretmek ve üzerinde işlem yapmak için geniş metin verileriyle eğitilmiş bir yapay zeka türüdür. LLM'ler, metin üre...

7 dakika okuma
AI Large Language Model +4