
Sobreajuste
El sobreajuste es un concepto crítico en la inteligencia artificial (IA) y el aprendizaje automático (ML), que ocurre cuando un modelo aprende demasiado bien lo...

El aprendizaje automático adversario estudia ataques que manipulan deliberadamente las entradas de modelos de IA para causar salidas incorrectas, y las defensas contra ellos. Las técnicas van desde perturbaciones imperceptibles de imágenes que engañan a clasificadores hasta indicaciones de texto elaboradas que secuestran el comportamiento de LLM.
El aprendizaje automático adversario es el estudio de ataques que causan que los modelos de IA produzcan salidas incorrectas, inseguras o no deseadas mediante la manipulación deliberada de sus entradas. Abarca tanto las técnicas de ataque que explotan vulnerabilidades del modelo como los enfoques defensivos que hacen que los modelos sean más robustos contra ellos.
El ML adversario surgió de la investigación en visión por computadora a principios de la década de 2010, cuando los investigadores descubrieron que agregar perturbaciones imperceptiblemente pequeñas a las imágenes podía causar que los clasificadores de última generación las clasificaran erróneamente con alta confianza. Un panda se convierte en un gibón; una señal de alto se convierte en una señal de límite de velocidad — con cambios de píxeles invisibles para los observadores humanos.
Este descubrimiento reveló que las redes neuronales, a pesar de su impresionante rendimiento, aprenden patrones estadísticos que pueden ser explotados en lugar de una comprensión semántica robusta. El mismo principio subyacente — que los modelos pueden ser engañados sistemáticamente por entradas cuidadosamente diseñadas — se aplica a todas las modalidades de IA, incluidos los modelos de lenguaje.
El modelo es atacado en tiempo de inferencia con entradas diseñadas para causar clasificación errónea o comportamiento inesperado. En visión por computadora, estas son imágenes adversarias. En PLN y LLMs, los ataques de evasión incluyen:
El modelo o sus fuentes de datos son atacados durante el entrenamiento o la recuperación. Los ejemplos incluyen:
Los adversarios usan consultas repetidas para extraer información sobre los límites de decisión de un modelo, reconstruir datos de entrenamiento o replicar capacidades del modelo — una amenaza de inteligencia competitiva para sistemas de IA propietarios.
Los atacantes determinan si datos específicos se usaron en el entrenamiento, exponiendo potencialmente si información personal sensible se incluyó en conjuntos de datos de entrenamiento.
Los modelos de lenguaje grandes enfrentan ataques adversarios que son distintos de los ejemplos adversarios clásicos de ML:
Los ataques de lenguaje natural son legibles por humanos. A diferencia de las perturbaciones de imágenes (cambios imperceptibles de píxeles), los ataques adversarios efectivos de LLM a menudo usan lenguaje natural coherente — haciéndolos mucho más difíciles de distinguir de entradas legítimas.
La superficie de ataque es la interfaz de instrucciones. Los LLMs están diseñados para seguir instrucciones. Los ataques adversarios explotan esto elaborando entradas que parecen instrucciones legítimas para el modelo pero logran objetivos del atacante.
Los ataques basados en gradientes son viables. Para modelos de código abierto o con acceso de caja blanca, los atacantes pueden calcular sufijos adversarios usando descenso de gradiente — la misma técnica utilizada para encontrar perturbaciones adversarias de imágenes. La investigación ha demostrado que estas cadenas computadas se transfieren sorprendentemente bien a modelos propietarios.
Análogo de ingeniería social. Muchos ataques adversarios de LLM se asemejan más a la ingeniería social que a los ataques clásicos de ML — explotando las tendencias del modelo hacia la utilidad, consistencia y cumplimiento de autoridad.
Incluir ejemplos adversarios en el entrenamiento mejora la robustez. El entrenamiento de alineación de seguridad para LLMs incorpora ejemplos de intentos de inyección de indicaciones y jailbreaking, enseñando a los modelos a resistirlos. Sin embargo, esta dinámica de carrera armamentista significa que regularmente surgen nuevos ataques que evitan el entrenamiento actual.
Las técnicas de verificación formal proporcionan garantías matemáticas de que un modelo clasificará correctamente las entradas dentro de un cierto límite de perturbación. Actualmente limitado a modelos más pequeños y dominios de entrada más simples, pero es un área de investigación activa.
Sanitizar las entradas para eliminar o neutralizar componentes adversarios potenciales antes de que lleguen al modelo. Para LLMs, esto incluye detectar patrones de inyección y estructuras de entrada anómalas.
Usar múltiples modelos y requerir acuerdo reduce la transferibilidad adversaria. Un ataque que engaña a un modelo es menos probable que engañe a todos los modelos en un conjunto.
Detectar entradas adversarias en tiempo de ejecución identificando anomalías estadísticas o patrones de comportamiento inconsistentes con el uso normal.
Para organizaciones que implementan chatbots de IA, los principios de ML adversario informan:
Los ejemplos adversarios son entradas cuidadosamente elaboradas diseñadas para engañar a un modelo de aprendizaje automático para que haga predicciones incorrectas. Para clasificadores de imágenes, esto podría ser una imagen con cambios imperceptibles de píxeles que causa una clasificación errónea. Para LLMs, los ejemplos adversarios incluyen indicaciones elaboradas que desencadenan salidas inseguras o evitan filtros de seguridad.
La seguridad de LLM es una aplicación especializada de los principios de ML adversario. La inyección de indicaciones y el jailbreaking son ataques adversarios contra LLMs — entradas elaboradas diseñadas para causar comportamiento incorrecto o dañino. Los sufijos adversarios (cadenas computadas que realizan jailbreaking de modelos de manera confiable) son una aplicación directa de la investigación clásica de ejemplos adversarios a modelos de lenguaje.
El entrenamiento adversario es una técnica de defensa que mejora la robustez del modelo al incluir ejemplos adversarios en el conjunto de datos de entrenamiento. El modelo aprende a manejar correctamente entradas que anteriormente eran adversarias. Para LLMs, esto se incorpora en el entrenamiento de alineación de seguridad — los modelos se entrenan con ejemplos de ataques para aprender a resistirlos.
Las vulnerabilidades adversarias en chatbots de IA van más allá de los ataques clásicos de ML. Nuestras evaluaciones cubren inyección de indicaciones, jailbreaking y todas las técnicas adversarias específicas de LLM.

El sobreajuste es un concepto crítico en la inteligencia artificial (IA) y el aprendizaje automático (ML), que ocurre cuando un modelo aprende demasiado bien lo...

La deriva del modelo, o degradación del modelo, se refiere a la disminución en el rendimiento predictivo de un modelo de aprendizaje automático a lo largo del t...

Descubre cómo el Thinking Machines Lab de Mira Murati está resolviendo el problema de la no determinación en los grandes modelos de lenguaje, permitiendo salida...