Strojové učenie
Strojové učenie (ML) je podmnožinou umelej inteligencie (AI), ktorá umožňuje strojom učiť sa z dát, identifikovať vzory, robiť predikcie a zlepšovať rozhodovani...

Adversariálne strojové učenie študuje útoky, ktoré zámerne manipulujú vstupy AI modelov s cieľom spôsobiť nesprávne výstupy, a obrany proti nim. Techniky siahajú od nepostrehnuteľných perturbácií obrázkov, ktoré oklamú klasifikátory, až po vytvorené textové výzvy, ktoré prelomia správanie LLM.
Adversariálne strojové učenie je štúdium útokov, ktoré spôsobujú, že AI modely produkujú nesprávne, nebezpečné alebo nežiaduce výstupy zámernou manipuláciou ich vstupov. Zahŕňa techniky útokov, ktoré zneužívajú zraniteľnosti modelov, aj obranné prístupy, ktoré robia modely robustnejšími voči nim.
Adversariálne ML vzniklo z výskumu počítačového videnia na začiatku roku 2010, keď výskumníci objavili, že pridanie nepostrehnuteľne malých perturbácií k obrázkom môže spôsobiť, že najmodernejšie klasifikátory ich nesprávne klasifikujú s vysokou istotou. Panda sa stane gibonom; značka stop sa stane značkou rýchlostného limitu — so zmenami pixelov neviditeľnými pre ľudských pozorovateľov.
Tento objav odhalil, že neurónové siete napriek ich pôsobivému výkonu sa učia štatistické vzory, ktoré môžu byť zneužité, namiesto robustného sémantického porozumenia. Ten istý základný princíp — že modely môžu byť systematicky oklamané starostlivo navrhnutými vstupmi — platí vo všetkých AI modalitách vrátane jazykových modelov.
Model je napadnutý v čase inferencie so vstupmi navrhnutými na spôsobenie nesprávnej klasifikácie alebo neočakávaného správania. V počítačovom videní sú to adversariálne obrázky. V NLP a LLM zahŕňajú útoky vyhýbania sa:
Model alebo jeho zdroje dát sú napadnuté počas trénovania alebo získavania. Príklady zahŕňajú:
Protivníci používajú opakované dotazy na extrahovanie informácií o hraniciach rozhodovania modelu, rekonštrukciu tréningových dát alebo replikáciu schopností modelu — hrozba konkurenčnej inteligencie pre proprietárne AI systémy.
Útočníci určujú, či boli konkrétne dáta použité pri trénovaní, čo môže odhaliť, či boli citlivé osobné informácie zahrnuté do tréningových datasetov.
Veľké jazykové modely čelia adversariálnym útokom, ktoré sa líšia od klasických ML adversariálnych príkladov:
Útoky v prirodzenom jazyku sú čitateľné pre ľudí. Na rozdiel od perturbácií obrázkov (nepostrehnuteľné zmeny pixelov), efektívne LLM adversariálne útoky často používajú koherentný prirodzený jazyk — čo ich robí oveľa ťažšie odlíšiteľnými od legitímnych vstupov.
Útočná plocha je rozhranie inštrukcií. LLM sú navrhnuté na nasledovanie inštrukcií. Adversariálne útoky to zneužívajú vytvorením vstupov, ktoré vyzerajú ako legitímne inštrukcie pre model, ale dosahujú ciele útočníka.
Útoky založené na gradiente sú realizovateľné. Pre open-source alebo white-box prístupové modely môžu útočníci vypočítať adversariálne prípony pomocou gradientného zostupu — rovnakej techniky používanej na nájdenie adversariálnych perturbácií obrázkov. Výskum preukázal, že tieto vypočítané reťazce sa prekvapivo dobre prenášajú na proprietárne modely.
Analógia sociálneho inžinierstva. Mnoho LLM adversariálnych útokov pripomína skôr sociálne inžinierstvo než klasické ML útoky — zneužívajú tendencie modelu k užitočnosti, konzistencii a dodržiavaniu autority.
Zahrnutie adversariálnych príkladov do trénovania zlepšuje robustnosť. Tréning bezpečnostného zarovnania pre LLM začleňuje príklady pokusov o prompt injection a jailbreaking, učí modely odolávať im. Avšak táto dynamika zbrojného pretekov znamená, že nové útoky pravidelne vznikajú a obchádzajú súčasný tréning.
Techniky formálnej verifikácie poskytujú matematické záruky, že model bude správne klasifikovať vstupy v rámci určitej hranice perturbácie. Momentálne obmedzené na menšie modely a jednoduchšie vstupné domény, ale je to aktívna oblasť výskumu.
Sanitizácia vstupov na odstránenie alebo neutralizáciu potenciálnych adversariálnych komponentov pred tým, ako sa dostanú k modelu. Pre LLM to zahŕňa detekciu vzorov injekcie a anomálnych vstupných štruktúr.
Použitie viacerých modelov a vyžadovanie zhody znižuje adversariálnu prenosnosť. Útok, ktorý oklame jeden model, má menšiu pravdepodobnosť oklamať všetky modely v ansámbli.
Detekcia adversariálnych vstupov za behu identifikáciou štatistických anomálií alebo behaviorálnych vzorov nekonzistentných s normálnym používaním.
Pre organizácie nasadzujúce AI chatboty informujú princípy adversariálneho ML:
Adversariálne zraniteľnosti v AI chatbotoch presahujú klasické ML útoky. Naše hodnotenia pokrývajú prompt injection, jailbreaking a všetky LLM-špecifické adversariálne techniky.
Strojové učenie (ML) je podmnožinou umelej inteligencie (AI), ktorá umožňuje strojom učiť sa z dát, identifikovať vzory, robiť predikcie a zlepšovať rozhodovani...
Preučenie je kľúčový pojem v oblasti umelej inteligencie (AI) a strojového učenia (ML), ktorý nastáva, keď model príliš dobre naučí tréningové dáta, vrátane šum...
Krivka učenia v umelej inteligencii je grafické znázornenie ilustrujúce vzťah medzi výkonnosťou modelu a premennými, ako je veľkosť dátovej množiny alebo počet ...