
İçerik Yazarlığı İçin En İyi LLM’yi Bulmak: Test Edildi ve Sıralandı
FlowHunt’ta bulunan 5 popüler modelin yazma yeteneklerini test ederek içerik yazarlığı için en iyi LLM’yi bulduk ve sıraladık.

Token kaçakçılığı, insanların metni nasıl okuduğu ile LLM tokenizer’larının metni nasıl işlediği arasındaki boşluktan yararlanır. Saldırganlar, kötü niyetli talimatları içerik filtrelerinden gizlemek için Unicode varyasyonları, sıfır genişlikli karakterler, homoglifler veya olağandışı kodlamalar kullanırken, tokenizer tarafından okunabilir kalmasını sağlar.
Token kaçakçılığı, yapay zeka sistemlerinde metin işleme katmanları arasındaki boşluğu hedef alan bir saldırı sınıfıdır. İçerik moderasyon filtreleri, girdi doğrulama ve güvenlik kontrolleri tipik olarak insan tarafından okunabilir metin üzerinde çalışır. LLM tokenizer’ları ise bunun aksine daha düşük bir seviyede çalışır — karakterleri sayısal token ID’lerine dönüştürür. Bu katmanlar arasındaki farklılıkları istismar ederek, saldırganlar metin düzeyindeki filtreleri geçen ancak LLM’ye kötü niyetli talimatlar ileten girdiler oluşturabilir.
Bir LLM metni işlemeden önce, bir tokenizer girdi dizesini bir tamsayı token ID dizisine dönüştürür. Bu ID’ler modelin kelime dağarcığıyla eşleşir — genellikle Byte Pair Encoding (BPE) veya WordPiece gibi algoritmalar kullanılarak kodlanır.
Saldırganların istismar ettiği tokenizasyonun temel özellikleri:
Unicode, yaygın ASCII karakterlerine görsel olarak benzeyen binlerce karakter içerir. “Harmful” kelimesini arayan bir filtre “hármful” (birleştirme vurgusu ile) veya “harⅿful” (Unicode kesir karakteri ile) kelimelerini tanımayabilir.
Örnek: “Ignore” kelimesi “іgnore” (Latin “i” yerine Kiril “і” kullanılarak) olarak kodlanabilir — çoğu insan okuyucu ve bazı filtreler için aynı görünür, ancak tokenizer seviyesinde potansiyel olarak farklı işlenebilir.
Sıfır genişlikli karakterler (U+200B SIFIR GENİŞLİKLİ BOŞLUK veya U+200C SIFIR GENİŞLİKLİ BİRLEŞTİRMEYEN gibi) işlenmiş metinde görünmezdir. Bunları anahtar kelimelerdeki karakterler arasına eklemek, görsel görünümü veya çoğu durumda tokenize edilmiş temsili etkilemeden dize eşleştirme filtrelerini bozar.
Örnek: Her karakter arasında sıfır genişlikli boşluklar bulunan “ignore” işlendiğinde “ignore” olarak görünür ancak basit dize deseni eşleştirmesini bozar.
Gönderimden önce metni alternatif kodlamalara dönüştürme:
Etkinlik, LLM’nin bu temsilleri çözme konusunda eğitilip eğitilmediğine bağlıdır ve birçok genel amaçlı model bunu yapabilir.
Basit ancak bazen etkili varyasyonlar:
Bazı tokenizer’lar sınırlayıcı karakterlere özel muamele gösterir. Tokenizer’ın segment sınırları olarak yorumladığı karakterler ekleyerek, saldırganlar modelin girdiyi anlamlı birimlere nasıl böldüğünü manipüle edebilir.
Jailbreak atlatma: Güvenlik filtresi katmanını geçen ancak LLM tarafından çözülen jailbreak prompt’larını kodlayarak güvenlik korkuluklarını atlama.
İçerik filtresi kaçınma: Nefret söylemi, yasadışı içerik talepleri veya politikayı ihlal eden talimatları kodlanmış biçimde gömme.
Prompt enjeksiyonu gizleme: LLM’nin bunları doğru şekilde işlemesini sağlarken, enjekte edilen talimatları basit desen eşleştirme filtrelerinden gizlemek için kodlama kullanma.
Filtre parmak izi çıkarma: Hedef sistemin filtrelerinin hangi kodlama varyasyonlarını algılayıp algılamadığını belirlemek için farklı kodlama varyasyonlarını sistematik olarak test etme — daha hedefli saldırılar için filtre kapsamını haritalama.
Filtrelemeden önce tüm girdilere Unicode normalleştirme (NFC, NFD, NFKC veya NFKD) uygulayın. Bu, Unicode varyantlarını kanonik formlara dönüştürerek birçok homoglif ve birleştirme karakter saldırısını ortadan kaldırır.
Filtrelemeden önce görsel olarak benzer karakterleri ASCII eşdeğerlerine normalleştirmek için açık homoglif eşlemesi uygulayın. Çoğu programlama dilinde bu amaç için kütüphaneler mevcuttur.
Dize tabanlı filtrelerin yerine (veya bunlara ek olarak), token temsilleri üzerinde çalışan LLM tabanlı bir filtre kullanın. Bu filtreler metni hedef modelle aynı seviyede işlediği için, kodlama hileleri daha az etkilidir — filtre modelin gördüğü temsili görür.
Güvenlik değerlendirmesi, içerik filtrelerinin bilinen kodlama varyantlarına karşı sistematik testini içermelidir. Bir filtrenin “ignore previous instructions” ifadesini engellemesi amaçlanıyorsa, Unicode homogliflerini, sıfır genişlikli varyantları, Base64 kodlamasını ve diğer gizleme biçimlerini de engelleyip engellemediğini test edin.
Ham girdinin yanında normalleştirilmiş girdilerin insan tarafından okunabilir bir şeklini günlüğe kaydedin. İkisi arasındaki tutarsızlıklar, olay incelemesi sırasında kodlama saldırılarını ortaya çıkarabilir.
Token kaçakçılığı, insan tarafından okunabilir metin ile LLM tokenizer temsilleri arasındaki farklılıkları istismar eden bir saldırı tekniğidir. Saldırganlar, içerik filtrelerinin algılamayacağı, ancak LLM'nin tokenizer'ının yine de amaçlandığı gibi işleyeceği şekilde karakter varyasyonları, Unicode hileleri veya olağandışı biçimlendirme kullanarak kötü niyetli talimatları kodlar.
İçerik filtreleri genellikle insan tarafından okunabilir metin üzerinde çalışır — belirli dizeler, desenler veya anahtar kelimeler arar. Ancak LLM tokenizer'ları metni daha düşük bir seviyede işler ve görsel olarak farklı karakterleri aynı veya benzer tokenlara eşleyebilir. Bu boşluk, saldırganların filtre için bir şekilde okunan ancak tokenizer tarafından farklı şekilde işlenen metinler oluşturmasına olanak tanır.
Savunmalar şunları içerir: filtrelemeden önce girdi metnini normalleştirme (Unicode normalleştirme, homoglif değiştirme), ham metin yerine token düzeyinde temsiller üzerinde çalışan LLM tabanlı içerik filtreleri kullanma, filtreleri bilinen kodlama varyantlarına karşı test etme ve kodlama tabanlı saldırı senaryolarını içeren güvenlik değerlendirmeleri yürütme.
Token kaçakçılığı ve kodlama saldırıları yüzeysel filtreleri atlatır. Her chatbot güvenlik değerlendirmesinde bu teknikleri test ediyoruz.

FlowHunt’ta bulunan 5 popüler modelin yazma yeteneklerini test ederek içerik yazarlığı için en iyi LLM’yi bulduk ve sıraladık.

LLM güvenliği, büyük dil modeli dağıtımlarını prompt enjeksiyonu, jailbreaking, veri sızdırma, RAG zehirlenmesi ve model kötüye kullanımı gibi yapay zekaya özgü...

Büyük Dil Modelleri (LLM'ler) ile Metin Üretimi, insan benzeri metinlerin istemlerden üretilmesi için gelişmiş makine öğrenimi modellerinin kullanılmasını ifade...