Adversarial Makine Öğrenmesi

Adversarial makine öğrenmesi, yapay zeka modellerinin girdilerini kasıtlı olarak manipüle ederek yanlış, güvenli olmayan veya istenmeyen çıktılar üretmelerine neden olan saldırıların incelenmesidir. Model güvenlik açıklarını istismar eden saldırı tekniklerini ve modelleri bunlara karşı daha dayanıklı hale getiren savunma yaklaşımlarını kapsar.

Adversarial Makine Öğrenmesi Manzarası

Adversarial ML, 2010’ların başında bilgisayarla görme araştırmalarından ortaya çıktı; araştırmacılar, görüntülere algılanamayacak kadar küçük bozulmalar eklemenin, son teknoloji sınıflandırıcıların bunları yüksek güvenle yanlış sınıflandırmasına neden olabileceğini keşfettiler. Bir panda gibbon olur; bir dur işareti hız sınırı işareti olur — insan gözlemciler için görünmez piksel değişiklikleriyle.

Bu keşif, sinir ağlarının etkileyici performanslarına rağmen, sağlam anlamsal anlayış yerine istismar edilebilecek istatistiksel kalıplar öğrendiklerini ortaya çıkardı. Aynı temel ilke — modellerin özenle tasarlanmış girdilerle sistematik olarak kandırılabileceği — dil modelleri dahil tüm yapay zeka modalitelerinde geçerlidir.

Kategoriye Göre Adversarial Saldırılar

Kaçınma Saldırıları

Model, yanlış sınıflandırmaya veya beklenmeyen davranışa neden olmak için tasarlanmış girdilerle çıkarım zamanında saldırıya uğrar. Bilgisayarla görmede bunlar adversarial görüntülerdir. NLP ve LLM’lerde kaçınma saldırıları şunları içerir:

  • Prompt injection : Sistem talimatlarını geçersiz kılan özenle hazırlanmış metin
  • Jailbreaking : Güvenlik korkuluklarını atlayan istemler
  • Token smuggling : İçerik filtrelerinden kaçan kodlama manipülasyonları
  • Adversarial sonekler: Güvenilir bir şekilde zararlı çıktılara neden olan algoritmik olarak hesaplanmış dizeler

Zehirleme Saldırıları

Model veya veri kaynakları, eğitim veya geri getirme sırasında saldırıya uğrar. Örnekler şunları içerir:

  • Eğitim verisi zehirlenmesi: Arka kapılar veya önyargı oluşturmak için eğitim veri setlerine kötü niyetli örnekler enjekte etme
  • RAG zehirlenmesi : Geri getirme bilgi tabanlarını kötü niyetli içerikle kirletme
  • İnce ayar saldırıları: Alana özgü ince ayar veri setlerini zehirleme

Model Çıkarma / Hırsızlık

Hasımlar, bir modelin karar sınırları hakkında bilgi çıkarmak, eğitim verilerini yeniden oluşturmak veya model yeteneklerini çoğaltmak için tekrarlanan sorgular kullanır — tescilli yapay zeka sistemleri için bir rekabet istihbaratı tehdididir.

Üyelik Çıkarımı

Saldırganlar, belirli verilerin eğitimde kullanılıp kullanılmadığını belirler ve potansiyel olarak hassas kişisel bilgilerin eğitim veri setlerine dahil edilip edilmediğini ortaya çıkarır.

Logo

İşinizi büyütmeye hazır mısınız?

Bugün ücretsiz denemenizi başlatın ve günler içinde sonuçları görün.

LLM’lere Yönelik Adversarial Saldırılar: Özelleşmiş Bir Alan

Büyük dil modelleri, klasik ML adversarial örneklerinden farklı adversarial saldırılarla karşı karşıyadır:

Doğal dil saldırıları insan tarafından okunabilir. Görüntü bozulmaları (algılanamayan piksel değişiklikleri) aksine, etkili LLM adversarial saldırıları genellikle tutarlı doğal dil kullanır — bu da onları meşru girdilerden ayırt etmeyi çok daha zor hale getirir.

Saldırı yüzeyi talimat arayüzüdür. LLM’ler talimatları takip etmek için tasarlanmıştır. Adversarial saldırılar bunu, modele meşru talimatlar gibi görünen ancak saldırgan hedeflerine ulaşan girdiler hazırlayarak istismar eder.

Gradyan tabanlı saldırılar uygulanabilir. Açık kaynaklı veya beyaz kutu erişimli modeller için, saldırganlar gradyan inişi kullanarak adversarial sonekler hesaplayabilir — adversarial görüntü bozulmalarını bulmak için kullanılan tekniğin aynısı. Araştırmalar, bu hesaplanan dizelerin tescilli modellere şaşırtıcı derecede iyi aktarıldığını göstermiştir.

Sosyal mühendislik benzeri. Birçok LLM adversarial saldırısı, klasik ML saldırılarından ziyade sosyal mühendisliğe benzer — model eğilimlerini yardımseverlik, tutarlılık ve otoriteye uyum açısından istismar eder.

Savunmalar ve Karşı Önlemler

Adversarial Eğitim

Eğitime adversarial örnekler dahil etmek dayanıklılığı artırır. LLM’ler için güvenlik hizalama eğitimi, prompt injection ve jailbreaking girişimlerinin örneklerini içerir ve modellere bunlara direnmelerini öğretir. Ancak, bu silahlanma yarışı dinamiği, mevcut eğitimi atlayan yeni saldırıların düzenli olarak ortaya çıkması anlamına gelir.

Sertifikalı Dayanıklılık

Biçimsel doğrulama teknikleri, bir modelin belirli bir bozulma sınırı içindeki girdileri doğru şekilde sınıflandıracağına dair matematiksel garantiler sağlar. Şu anda daha küçük modellerle ve daha basit girdi alanlarıyla sınırlıdır, ancak aktif bir araştırma alanıdır.

Girdi Ön İşleme ve Doğrulama

Potansiyel adversarial bileşenleri modele ulaşmadan önce kaldırmak veya etkisiz hale getirmek için girdileri temizleme. LLM’ler için bu, injection kalıplarını ve anormal girdi yapılarını tespit etmeyi içerir.

Topluluk Yöntemleri

Birden fazla model kullanmak ve anlaşma gerektirmek, adversarial aktarılabilirliği azaltır. Bir modeli kandıran bir saldırının, bir topluluktaki tüm modelleri kandırma olasılığı daha düşüktür.

İzleme ve Anomali Tespiti

Çalışma zamanında, normal kullanımla tutarsız istatistiksel anomalileri veya davranışsal kalıpları tanımlayarak adversarial girdileri tespit etme.

Yapay Zeka Sohbet Botu Güvenliğine Uygulama

Yapay zeka sohbet botları dağıtan kuruluşlar için adversarial ML ilkeleri şunları bilgilendirir:

  • AI red teaming : Yapay zeka sistemlerinin sistematik adversarial incelemesi
  • Dayanıklılık değerlendirmesi: Güvenlik davranışlarının adversarial koşullar altında geçerli olup olmadığını test etme
  • Girdi doğrulama tasarımı: Hangi adversarial girdi sınıflarının var olduğunu anlamak, neyin doğrulanacağını bilgilendirir
  • Savunma derinliği: Hiçbir tek savunma sağlam değildir; katmanlı kontroller gereklidir

İlgili Terimler

Sıkça sorulan sorular

Yapay Zeka Sisteminizin Adversarial Dayanıklılığını Test Edin

Yapay zeka sohbet botlarındaki adversarial güvenlik açıkları klasik ML saldırılarının ötesine geçer. Değerlendirmelerimiz prompt injection, jailbreaking ve tüm LLM'ye özgü adversarial teknikleri kapsar.

Daha fazla bilgi

Model Dayanıklılığı

Model Dayanıklılığı

Model dayanıklılığı, bir makine öğrenimi (ML) modelinin, girdilerdeki değişikliklere ve belirsizliklere rağmen tutarlı ve doğru performansını koruyabilme yetene...

5 dakika okuma
AI Machine Learning +4
Eğitim Hatası

Eğitim Hatası

Yapay zeka ve makine öğreniminde eğitim hatası, bir modelin eğitim sırasında tahmin edilen ve gerçek çıktıları arasındaki farktır. Model performansını değerlend...

6 dakika okuma
AI Machine Learning +3
Makine Öğrenimi

Makine Öğrenimi

Makine Öğrenimi (ML), makinelerin verilerden öğrenmesini, kalıpları tanımlamasını, tahminlerde bulunmasını ve zamanla açıkça programlanmadan karar verme süreçle...

3 dakika okuma
Machine Learning AI +4