
Rede Generativa Adversarial (GAN)
Uma Rede Generativa Adversarial (GAN) é uma estrutura de aprendizado de máquina composta por duas redes neurais—um gerador e um discriminador—que competem para ...

O aprendizado de máquina adversarial estuda ataques que manipulam deliberadamente as entradas de modelos de IA para causar saídas incorretas, e as defesas contra eles. As técnicas variam de perturbações imperceptíveis em imagens que enganam classificadores a prompts de texto elaborados que sequestram o comportamento de LLMs.
O aprendizado de máquina adversarial é o estudo de ataques que fazem modelos de IA produzirem saídas incorretas, inseguras ou não intencionais através da manipulação deliberada de suas entradas. Ele abrange tanto as técnicas de ataque que exploram vulnerabilidades de modelos quanto as abordagens defensivas que tornam os modelos mais robustos contra elas.
O ML adversarial surgiu da pesquisa em visão computacional no início dos anos 2010, quando pesquisadores descobriram que adicionar perturbações imperceptivelmente pequenas a imagens poderia fazer classificadores de última geração classificá-las incorretamente com alta confiança. Um panda se torna um gibão; uma placa de pare se torna uma placa de limite de velocidade — com mudanças de pixels invisíveis para observadores humanos.
Esta descoberta revelou que redes neurais, apesar de seu desempenho impressionante, aprendem padrões estatísticos que podem ser explorados em vez de uma compreensão semântica robusta. O mesmo princípio subjacente — que modelos podem ser sistematicamente enganados por entradas cuidadosamente projetadas — se aplica a todas as modalidades de IA, incluindo modelos de linguagem.
O modelo é atacado no momento da inferência com entradas projetadas para causar classificação incorreta ou comportamento inesperado. Em visão computacional, estes são imagens adversariais. Em NLP e LLMs, ataques de evasão incluem:
O modelo ou suas fontes de dados são atacados durante o treinamento ou recuperação. Exemplos incluem:
Adversários usam consultas repetidas para extrair informações sobre os limites de decisão de um modelo, reconstruir dados de treinamento ou replicar capacidades do modelo — uma ameaça de inteligência competitiva para sistemas de IA proprietários.
Atacantes determinam se dados específicos foram usados no treinamento, potencialmente expondo se informações pessoais sensíveis foram incluídas em conjuntos de dados de treinamento.
Grandes modelos de linguagem enfrentam ataques adversariais que são distintos dos exemplos adversariais clássicos de ML:
Ataques em linguagem natural são legíveis por humanos. Ao contrário de perturbações em imagens (mudanças imperceptíveis de pixels), ataques adversariais eficazes em LLM frequentemente usam linguagem natural coerente — tornando-os muito mais difíceis de distinguir de entradas legítimas.
A superfície de ataque é a interface de instrução. LLMs são projetados para seguir instruções. Ataques adversariais exploram isso elaborando entradas que parecem instruções legítimas para o modelo, mas alcançam objetivos do atacante.
Ataques baseados em gradiente são viáveis. Para modelos de código aberto ou com acesso white-box, atacantes podem computar sufixos adversariais usando descida de gradiente — a mesma técnica usada para encontrar perturbações adversariais em imagens. Pesquisas demonstraram que essas strings computadas se transferem surpreendentemente bem para modelos proprietários.
Análogo de engenharia social. Muitos ataques adversariais em LLM se assemelham mais à engenharia social do que a ataques clássicos de ML — explorando tendências do modelo em direção à prestatividade, consistência e conformidade com autoridade.
Incluir exemplos adversariais no treinamento melhora a robustez. O treinamento de alinhamento de segurança para LLMs incorpora exemplos de tentativas de injeção de prompt e jailbreaking, ensinando os modelos a resistir a eles. No entanto, essa dinâmica de corrida armamentista significa que novos ataques surgem regularmente que contornam o treinamento atual.
Técnicas de verificação formal fornecem garantias matemáticas de que um modelo classificará corretamente entradas dentro de um certo limite de perturbação. Atualmente limitado a modelos menores e domínios de entrada mais simples, mas é uma área de pesquisa ativa.
Sanitizar entradas para remover ou neutralizar componentes adversariais potenciais antes que alcancem o modelo. Para LLMs, isso inclui detectar padrões de injeção e estruturas de entrada anômalas.
Usar múltiplos modelos e exigir concordância reduz a transferibilidade adversarial. Um ataque que engana um modelo é menos provável de enganar todos os modelos em um ensemble.
Detectar entradas adversariais em tempo de execução identificando anomalias estatísticas ou padrões comportamentais inconsistentes com o uso normal.
Exemplos adversariais são entradas cuidadosamente elaboradas projetadas para enganar um modelo de aprendizado de máquina e fazê-lo gerar previsões incorretas. Para classificadores de imagem, isso pode ser uma imagem com alterações imperceptíveis de pixels que causam classificação incorreta. Para LLMs, exemplos adversariais incluem prompts elaborados que acionam saídas inseguras ou contornam filtros de segurança.
A segurança de LLM é uma aplicação especializada dos princípios de ML adversarial. Injeção de prompt e jailbreaking são ataques adversariais em LLMs — entradas elaboradas projetadas para causar comportamento incorreto ou prejudicial. Sufixos adversariais (strings computadas que fazem jailbreak de modelos de forma confiável) são uma aplicação direta da pesquisa clássica de exemplos adversariais a modelos de linguagem.
Treinamento adversarial é uma técnica de defesa que melhora a robustez do modelo incluindo exemplos adversariais no conjunto de dados de treinamento. O modelo aprende a lidar corretamente com entradas que anteriormente eram adversariais. Para LLMs, isso é incorporado no treinamento de alinhamento de segurança — os modelos são treinados com exemplos de ataques para aprender a resistir a eles.
Vulnerabilidades adversariais em chatbots de IA vão além dos ataques clássicos de ML. Nossas avaliações cobrem injeção de prompt, jailbreaking e todas as técnicas adversariais específicas de LLM.

Uma Rede Generativa Adversarial (GAN) é uma estrutura de aprendizado de máquina composta por duas redes neurais—um gerador e um discriminador—que competem para ...

A Regressão por Floresta Aleatória é um poderoso algoritmo de aprendizado de máquina usado para análises preditivas. Ela constrói múltiplas árvores de decisão e...

O teste de penetração de IA é uma avaliação de segurança estruturada de sistemas de IA — incluindo chatbots LLM, agentes autônomos e pipelines RAG — usando ataq...