Önyargı
Yapay zekâda önyargıyı keşfedin: kaynaklarını, makine öğrenimine etkisini, gerçek dünya örneklerini ve önyargının azaltılması için stratejileri anlayarak adil v...

Adversarial makine öğrenmesi, yapay zeka model girdilerini kasıtlı olarak manipüle ederek yanlış çıktılara neden olan saldırıları ve bunlara karşı savunmaları inceler. Teknikler, sınıflandırıcıları kandıran algılanamayan görüntü bozulmalarından LLM davranışını ele geçiren özenle hazırlanmış metin istemlerine kadar uzanır.
Adversarial makine öğrenmesi, yapay zeka modellerinin girdilerini kasıtlı olarak manipüle ederek yanlış, güvenli olmayan veya istenmeyen çıktılar üretmelerine neden olan saldırıların incelenmesidir. Model güvenlik açıklarını istismar eden saldırı tekniklerini ve modelleri bunlara karşı daha dayanıklı hale getiren savunma yaklaşımlarını kapsar.
Adversarial ML, 2010’ların başında bilgisayarla görme araştırmalarından ortaya çıktı; araştırmacılar, görüntülere algılanamayacak kadar küçük bozulmalar eklemenin, son teknoloji sınıflandırıcıların bunları yüksek güvenle yanlış sınıflandırmasına neden olabileceğini keşfettiler. Bir panda gibbon olur; bir dur işareti hız sınırı işareti olur — insan gözlemciler için görünmez piksel değişiklikleriyle.
Bu keşif, sinir ağlarının etkileyici performanslarına rağmen, sağlam anlamsal anlayış yerine istismar edilebilecek istatistiksel kalıplar öğrendiklerini ortaya çıkardı. Aynı temel ilke — modellerin özenle tasarlanmış girdilerle sistematik olarak kandırılabileceği — dil modelleri dahil tüm yapay zeka modalitelerinde geçerlidir.
Model, yanlış sınıflandırmaya veya beklenmeyen davranışa neden olmak için tasarlanmış girdilerle çıkarım zamanında saldırıya uğrar. Bilgisayarla görmede bunlar adversarial görüntülerdir. NLP ve LLM’lerde kaçınma saldırıları şunları içerir:
Model veya veri kaynakları, eğitim veya geri getirme sırasında saldırıya uğrar. Örnekler şunları içerir:
Hasımlar, bir modelin karar sınırları hakkında bilgi çıkarmak, eğitim verilerini yeniden oluşturmak veya model yeteneklerini çoğaltmak için tekrarlanan sorgular kullanır — tescilli yapay zeka sistemleri için bir rekabet istihbaratı tehdididir.
Saldırganlar, belirli verilerin eğitimde kullanılıp kullanılmadığını belirler ve potansiyel olarak hassas kişisel bilgilerin eğitim veri setlerine dahil edilip edilmediğini ortaya çıkarır.
Büyük dil modelleri, klasik ML adversarial örneklerinden farklı adversarial saldırılarla karşı karşıyadır:
Doğal dil saldırıları insan tarafından okunabilir. Görüntü bozulmaları (algılanamayan piksel değişiklikleri) aksine, etkili LLM adversarial saldırıları genellikle tutarlı doğal dil kullanır — bu da onları meşru girdilerden ayırt etmeyi çok daha zor hale getirir.
Saldırı yüzeyi talimat arayüzüdür. LLM’ler talimatları takip etmek için tasarlanmıştır. Adversarial saldırılar bunu, modele meşru talimatlar gibi görünen ancak saldırgan hedeflerine ulaşan girdiler hazırlayarak istismar eder.
Gradyan tabanlı saldırılar uygulanabilir. Açık kaynaklı veya beyaz kutu erişimli modeller için, saldırganlar gradyan inişi kullanarak adversarial sonekler hesaplayabilir — adversarial görüntü bozulmalarını bulmak için kullanılan tekniğin aynısı. Araştırmalar, bu hesaplanan dizelerin tescilli modellere şaşırtıcı derecede iyi aktarıldığını göstermiştir.
Sosyal mühendislik benzeri. Birçok LLM adversarial saldırısı, klasik ML saldırılarından ziyade sosyal mühendisliğe benzer — model eğilimlerini yardımseverlik, tutarlılık ve otoriteye uyum açısından istismar eder.
Eğitime adversarial örnekler dahil etmek dayanıklılığı artırır. LLM’ler için güvenlik hizalama eğitimi, prompt injection ve jailbreaking girişimlerinin örneklerini içerir ve modellere bunlara direnmelerini öğretir. Ancak, bu silahlanma yarışı dinamiği, mevcut eğitimi atlayan yeni saldırıların düzenli olarak ortaya çıkması anlamına gelir.
Biçimsel doğrulama teknikleri, bir modelin belirli bir bozulma sınırı içindeki girdileri doğru şekilde sınıflandıracağına dair matematiksel garantiler sağlar. Şu anda daha küçük modellerle ve daha basit girdi alanlarıyla sınırlıdır, ancak aktif bir araştırma alanıdır.
Potansiyel adversarial bileşenleri modele ulaşmadan önce kaldırmak veya etkisiz hale getirmek için girdileri temizleme. LLM’ler için bu, injection kalıplarını ve anormal girdi yapılarını tespit etmeyi içerir.
Birden fazla model kullanmak ve anlaşma gerektirmek, adversarial aktarılabilirliği azaltır. Bir modeli kandıran bir saldırının, bir topluluktaki tüm modelleri kandırma olasılığı daha düşüktür.
Çalışma zamanında, normal kullanımla tutarsız istatistiksel anomalileri veya davranışsal kalıpları tanımlayarak adversarial girdileri tespit etme.
Yapay zeka sohbet botları dağıtan kuruluşlar için adversarial ML ilkeleri şunları bilgilendirir:
Adversarial örnekler, bir makine öğrenmesi modelini yanlış tahminler yapmaya kandırmak için özenle hazırlanmış girdilerdir. Görüntü sınıflandırıcıları için bu, yanlış sınıflandırmaya neden olan algılanamayan piksel değişiklikleri içeren bir görüntü olabilir. LLM'ler için adversarial örnekler, güvenli olmayan çıktıları tetikleyen veya güvenlik filtrelerini atlayan özenle hazırlanmış istemleri içerir.
LLM güvenliği, adversarial ML ilkelerinin özelleşmiş bir uygulamasıdır. Prompt injection ve jailbreaking, LLM'lere yönelik adversarial saldırılardır — yanlış veya zararlı davranışlara neden olmak için hazırlanmış girdilerdir. Adversarial sonekler (modelleri güvenilir bir şekilde jailbreak eden hesaplanmış dizeler), klasik adversarial örnek araştırmasının dil modellerine doğrudan uygulanmasıdır.
Adversarial eğitim, eğitim veri setine adversarial örnekler dahil ederek model dayanıklılığını artıran bir savunma tekniğidir. Model, daha önce adversarial olan girdileri doğru şekilde işlemeyi öğrenir. LLM'ler için bu, güvenlik hizalama eğitimine dahil edilir — modeller, onlara direnmek için saldırı örnekleri üzerinde eğitilir.
Yapay zeka sohbet botlarındaki adversarial güvenlik açıkları klasik ML saldırılarının ötesine geçer. Değerlendirmelerimiz prompt injection, jailbreaking ve tüm LLM'ye özgü adversarial teknikleri kapsar.
Yapay zekâda önyargıyı keşfedin: kaynaklarını, makine öğrenimine etkisini, gerçek dünya örneklerini ve önyargının azaltılması için stratejileri anlayarak adil v...
Model dayanıklılığı, bir makine öğrenimi (ML) modelinin, girdilerdeki değişikliklere ve belirsizliklere rağmen tutarlı ve doğru performansını koruyabilme yetene...
Aşırı öğrenme, yapay zeka (YZ) ve makine öğrenimi (MÖ) alanlarında kritik bir kavramdır; modelin eğitim verisini çok iyi öğrenip, gürültüyü de dahil etmesiyle y...