Manipulación de la Ventana de Contexto

La ventana de contexto es una de las fronteras de seguridad más importantes y menos comprendidas en las implementaciones de modelos de lenguaje grandes. Define qué información puede acceder el LLM durante una única llamada de inferencia — y es un recurso finito que los atacantes pueden explotar deliberadamente.

¿Qué es la Ventana de Contexto?

Un modelo de lenguaje grande procesa el texto como tokens (aproximadamente 3/4 de una palabra por token). La ventana de contexto define el número máximo de tokens que el modelo puede procesar a la vez. Los modelos modernos varían desde 4K hasta más de 1M de tokens, pero todos tienen límites.

Dentro de la ventana de contexto, el LLM procesa:

  • Prompt del sistema: Instrucciones definidas por el desarrollador que establecen el rol y las restricciones del chatbot
  • Historial de conversación: Turnos anteriores en la sesión actual
  • Contenido recuperado: Documentos, resultados de bases de datos y salidas de herramientas devueltas por RAG o búsqueda
  • Entrada del usuario: El mensaje actual del usuario

Todo esto aparece como un flujo unificado para el modelo. El modelo no tiene un mecanismo inherente para tratar las instrucciones de diferentes fuentes de manera diferente — y su atención a partes específicas del contexto no es uniforme.

Técnicas de Ataque a la Ventana de Contexto

Relleno de Contexto / Inundación de Contexto

El atacante envía una entrada extremadamente grande — a menudo un documento extenso, bloque de código o volcado de texto — para empujar el contenido anterior (particularmente el prompt del sistema) más lejos de la posición actual del modelo.

La investigación demuestra que los LLM exhiben un comportamiento de “perdido en el medio”: prestan más atención al contenido al principio y al final de contextos largos, y menos atención a la información en el medio. Al inundar el contexto, un atacante puede posicionar estratégicamente su carga maliciosa (típicamente al final) mientras que las instrucciones de seguridad anteriores se desplazan hacia la zona media de baja atención.

Ejemplo práctico: El prompt del sistema de un chatbot establece que no puede discutir productos de la competencia. Un atacante envía un documento de 50,000 tokens seguido de un prompt preguntando sobre competidores. La instrucción del prompt del sistema ha sido efectivamente diluida.

Desbordamiento de Contexto / Explotación de Truncamiento

Cuando el contexto se llena, el LLM o su infraestructura debe decidir qué eliminar. Si el truncamiento prioriza la recencia (eliminando primero el contenido más antiguo), un atacante puede desbordar el contexto para eliminar completamente el prompt del sistema — dejando al modelo operando solo con el contexto proporcionado por el usuario.

La secuencia de ataque:

  1. Establecer una conversación con muchos turnos
  2. Generar respuestas largas para maximizar el consumo de contexto
  3. Continuar hasta que el contenido del prompt del sistema sea truncado
  4. Ahora emitir instrucciones maliciosas sin un prompt del sistema que compita

Envenenamiento de Contexto a través de Contenido Recuperado

En sistemas RAG, los documentos recuperados consumen un espacio de contexto significativo. Un atacante que puede influir en lo que se recupera (a través del envenenamiento RAG ) puede llenar selectivamente el contexto con contenido que sirva a sus objetivos mientras desplaza información legítima.

Inyección Posicional

La investigación ha identificado que las instrucciones en posiciones específicas del contexto tienen una influencia desproporcionada. Los atacantes que entienden el ensamblaje de contexto pueden crear entradas diseñadas para aterrizar en posiciones de alta atención relativas a su carga.

Inyección de Múltiples Disparos

En modelos que soportan contextos muy largos (cientos de miles de tokens), los atacantes pueden incrustar cientos de ejemplos de “demostración” mostrando al modelo produciendo salidas que violan políticas antes de la solicitud maliciosa real. El modelo, condicionado por estas demostraciones, es significativamente más propenso a cumplir.

Logo

¿Listo para hacer crecer tu negocio?

Comienza tu prueba gratuita hoy y ve resultados en días.

Defensas Contra la Manipulación de la Ventana de Contexto

Anclar Instrucciones Críticas

No coloque todas las instrucciones críticas de seguridad solo al principio del prompt del sistema. Repita las restricciones clave al final del prompt del sistema y considere inyectar recordatorios breves en puntos clave de conversaciones largas.

Límites de Tamaño de Contexto

Implemente límites de longitud de entrada máxima apropiados para su caso de uso. Un chatbot de servicio al cliente rara vez necesita procesar entradas de 100,000 tokens — limitar esto reduce el riesgo de ataques de inundación.

Monitoreo de Contexto

Registre y monitoree los tamaños y composición del contexto. Entradas inusualmente grandes, crecimiento rápido del contexto o composición de contexto inesperada son posibles indicadores de ataque.

Resumen para Conversaciones Largas

Para conversaciones de larga duración, implemente un resumen de contexto que retenga hechos y restricciones clave en lugar del historial de conversación en bruto. Esto resiste ataques de desbordamiento mientras mantiene la continuidad conversacional.

Pruebas de Contexto Adversarial

Incluya escenarios de manipulación de contexto en compromisos de pruebas de penetración de IA . Pruebe si los comportamientos de seguridad se mantienen a través de contextos largos y si los prompts del sistema siguen siendo efectivos después de la inundación de contexto.

Términos Relacionados

Preguntas frecuentes

¿Qué es la ventana de contexto en un LLM?

La ventana de contexto es la cantidad de texto (medida en tokens) que un modelo de lenguaje grande puede procesar a la vez. Incluye el prompt del sistema, el historial de conversación, los documentos recuperados y las salidas de herramientas. Todo lo que el modelo 'sabe' durante una sesión debe caber dentro de esta ventana.

¿Cómo pueden los atacantes explotar la ventana de contexto?

Los atacantes pueden inundar el contexto con contenido irrelevante para sacar las instrucciones tempranas (incluyendo las barreras de seguridad) de la atención efectiva del modelo, inyectar cargas maliciosas que están enterradas en contextos largos y pasadas por alto por los filtros, o explotar comportamientos de truncamiento de contexto para asegurar que el contenido malicioso sobreviva mientras que las instrucciones legítimas no lo hacen.

¿Cómo se protege contra la manipulación de la ventana de contexto?

Las defensas incluyen: anclar instrucciones críticas en múltiples puntos del contexto (no solo al principio), implementar límites de tamaño de contexto, monitorear cargas de contexto inusualmente grandes, usar resumen de contexto para conversaciones largas y probar escenarios de manipulación de contexto en evaluaciones de seguridad.

Pruebe su Chatbot Contra Ataques Basados en Contexto

La manipulación de la ventana de contexto es una superficie de ataque subestimada. Nuestras pruebas de penetración incluyen escenarios de desbordamiento de contexto y envenenamiento estratégico.

Saber más

Token

Token

Un token en el contexto de los modelos de lenguaje grandes (LLM) es una secuencia de caracteres que el modelo convierte en representaciones numéricas para un pr...

3 min de lectura
Token LLM +3
Ventaneo

Ventaneo

El ventaneo en inteligencia artificial se refiere al procesamiento de datos en segmentos o "ventanas" para analizar información secuencial de manera eficiente. ...

9 min de lectura
AI NLP +5
Modelo de lenguaje grande (LLM)

Modelo de lenguaje grande (LLM)

Un modelo de lenguaje grande (LLM) es un tipo de inteligencia artificial entrenada con grandes cantidades de datos textuales para comprender, generar y manipula...

10 min de lectura
AI Large Language Model +4