
Generativní adversariální síť (GAN)
Generativní adversariální síť (GAN) je rámec strojového učení se dvěma neuronovými sítěmi—generátorem a diskriminátorem—které spolu soupeří o generování dat ner...

Adversarial machine learning studuje útoky, které záměrně manipulují vstupy AI modelů s cílem způsobit nesprávné výstupy, a obranu proti nim. Techniky sahají od nepostřehnutelných perturbací obrazu, které oklamou klasifikátory, až po vytvořené textové prompty, které přebírají kontrolu nad chováním LLM.
Adversarial machine learning je studium útoků, které způsobují, že AI modely produkují nesprávné, nebezpečné nebo nezamýšlené výstupy záměrnou manipulací jejich vstupů. Zahrnuje jak útočné techniky, které využívají zranitelnosti modelů, tak obranné přístupy, které činí modely vůči nim robustnějšími.
Adversarial ML vzniklo z výzkumu počítačového vidění na počátku roku 2010, kdy výzkumníci objevili, že přidání nepostřehnutelně malých perturbací k obrázkům může způsobit, že špičkové klasifikátory je chybně klasifikují s vysokou jistotou. Panda se stává gibonem; značka stop se stává značkou rychlostního omezení — se změnami pixelů neviditelnými pro lidské pozorovatele.
Tento objev odhalil, že neuronové sítě, navzdory jejich působivému výkonu, se učí statistické vzorce, které mohou být zneužity, spíše než robustní sémantické porozumění. Stejný základní princip — že modely mohou být systematicky oklamány pečlivě navrženými vstupy — platí napříč všemi AI modalitami, včetně jazykových modelů.
Model je napaden v době inference vstupy navrženými k vyvolání chybné klasifikace nebo neočekávaného chování. V počítačovém vidění jsou to adversariální obrázky. V NLP a LLM zahrnují útoky vyhýbání:
Model nebo jeho datové zdroje jsou napadeny během tréninku nebo získávání dat. Příklady zahrnují:
Protivníci používají opakované dotazy k extrakci informací o rozhodovacích hranicích modelu, rekonstrukci trénovacích dat nebo replikaci schopností modelu — hrozba konkurenční inteligence pro proprietární AI systémy.
Útočníci určují, zda byla konkrétní data použita při tréninku, což potenciálně odhaluje, zda byly citlivé osobní informace zahrnuty do trénovacích datasetů.
Velké jazykové modely čelí adversariálním útokům, které se liší od klasických ML adversariálních příkladů:
Útoky v přirozeném jazyce jsou čitelné pro člověka. Na rozdíl od perturbací obrazu (nepostřehnutelné změny pixelů) používají efektivní adversariální útoky na LLM často koherentní přirozený jazyk — což je činí mnohem obtížnějšími k rozlišení od legitimních vstupů.
Útočná plocha je rozhraní instrukcí. LLM jsou navrženy k následování instrukcí. Adversariální útoky to využívají vytvářením vstupů, které vypadají pro model jako legitimní instrukce, ale dosahují cílů útočníka.
Útoky založené na gradientu jsou proveditelné. U open-source modelů nebo modelů s white-box přístupem mohou útočníci vypočítat adversariální přípony pomocí gradientního sestupu — stejné techniky používané k nalezení adversariálních perturbací obrazu. Výzkum prokázal, že tyto vypočítané řetězce se překvapivě dobře přenášejí na proprietární modely.
Analogie sociálního inženýrství. Mnoho adversariálních útoků na LLM se podobá spíše sociálnímu inženýrství než klasickým ML útokům — využívají sklony modelů k užitečnosti, konzistenci a dodržování autority.
Zahrnutí adversariálních příkladů do tréninku zlepšuje robustnost. Trénink bezpečnostního zarovnání pro LLM začleňuje příklady pokusů o prompt injection a jailbreaking, učí modely jim odolávat. Nicméně tato dynamika závodu ve zbrojení znamená, že se pravidelně objevují nové útoky, které obcházejí současný trénink.
Techniky formální verifikace poskytují matematické záruky, že model správně klasifikuje vstupy v rámci určité hranice perturbace. V současnosti omezeno na menší modely a jednodušší vstupní domény, ale aktivní oblast výzkumu.
Sanitizace vstupů k odstranění nebo neutralizaci potenciálních adversariálních komponent před tím, než se dostanou k modelu. U LLM to zahrnuje detekci vzorců injekce a anomálních struktur vstupů.
Použití více modelů a vyžadování shody snižuje přenositelnost adversariálních útoků. Útok, který oklame jeden model, má menší pravděpodobnost oklamat všechny modely v ansámblu.
Detekce adversariálních vstupů za běhu identifikací statistických anomálií nebo vzorců chování nekonzistentních s normálním použitím.
Pro organizace nasazující AI chatboty informují principy adversarial ML:
Adversariální příklady jsou pečlivě vytvořené vstupy navržené k oklamání modelu strojového učení, aby prováděl nesprávné predikce. U klasifikátorů obrazu to může být obrázek s nepostřehnými změnami pixelů, které způsobí chybnou klasifikaci. U LLM zahrnují adversariální příklady vytvořené prompty, které spouštějí nebezpečné výstupy nebo obcházejí bezpečnostní filtry.
Bezpečnost LLM je specializovanou aplikací principů adversarial ML. Prompt injection a jailbreaking jsou adversariální útoky na LLM — vytvořené vstupy navržené k vyvolání nesprávného nebo škodlivého chování. Adversariální přípony (vypočítané řetězce, které spolehlivě prolamují modely) jsou přímou aplikací klasického výzkumu adversariálních příkladů na jazykové modely.
Adversariální trénink je obranná technika, která zlepšuje robustnost modelu zahrnutím adversariálních příkladů do trénovacího datasetu. Model se učí správně zpracovávat vstupy, které byly dříve adversariální. U LLM je toto začleněno do tréninku bezpečnostního zarovnání — modely jsou trénovány na příkladech útoků, aby se naučily jim odolávat.
Adversariální zranitelnosti v AI chatbotech jdou nad rámec klasických ML útoků. Naše hodnocení pokrývají prompt injection, jailbreaking a všechny specifické adversariální techniky pro LLM.

Generativní adversariální síť (GAN) je rámec strojového učení se dvěma neuronovými sítěmi—generátorem a diskriminátorem—které spolu soupeří o generování dat ner...

AI penetrační testování je strukturované bezpečnostní hodnocení AI systémů — včetně LLM chatbotů, autonomních agentů a RAG pipeline — pomocí simulovaných útoků ...

Odklon modelu, nebo také degradace modelu, označuje pokles prediktivní výkonnosti modelu strojového učení v čase v důsledku změn v reálném světě. Zjistěte, jaké...