Token
Un token en el contexto de los modelos de lenguaje grandes (LLM) es una secuencia de caracteres que el modelo convierte en representaciones numéricas para un pr...

La manipulación de la ventana de contexto se refiere a ataques que explotan la ventana de contexto finita de los modelos de lenguaje grandes — incluyendo relleno de contexto, desbordamiento de contexto y envenenamiento estratégico — para degradar el rendimiento, ocultar cargas maliciosas o anular instrucciones anteriores.
La ventana de contexto es una de las fronteras de seguridad más importantes y menos comprendidas en las implementaciones de modelos de lenguaje grandes. Define qué información puede acceder el LLM durante una única llamada de inferencia — y es un recurso finito que los atacantes pueden explotar deliberadamente.
Un modelo de lenguaje grande procesa el texto como tokens (aproximadamente 3/4 de una palabra por token). La ventana de contexto define el número máximo de tokens que el modelo puede procesar a la vez. Los modelos modernos varían desde 4K hasta más de 1M de tokens, pero todos tienen límites.
Dentro de la ventana de contexto, el LLM procesa:
Todo esto aparece como un flujo unificado para el modelo. El modelo no tiene un mecanismo inherente para tratar las instrucciones de diferentes fuentes de manera diferente — y su atención a partes específicas del contexto no es uniforme.
El atacante envía una entrada extremadamente grande — a menudo un documento extenso, bloque de código o volcado de texto — para empujar el contenido anterior (particularmente el prompt del sistema) más lejos de la posición actual del modelo.
La investigación demuestra que los LLM exhiben un comportamiento de “perdido en el medio”: prestan más atención al contenido al principio y al final de contextos largos, y menos atención a la información en el medio. Al inundar el contexto, un atacante puede posicionar estratégicamente su carga maliciosa (típicamente al final) mientras que las instrucciones de seguridad anteriores se desplazan hacia la zona media de baja atención.
Ejemplo práctico: El prompt del sistema de un chatbot establece que no puede discutir productos de la competencia. Un atacante envía un documento de 50,000 tokens seguido de un prompt preguntando sobre competidores. La instrucción del prompt del sistema ha sido efectivamente diluida.
Cuando el contexto se llena, el LLM o su infraestructura debe decidir qué eliminar. Si el truncamiento prioriza la recencia (eliminando primero el contenido más antiguo), un atacante puede desbordar el contexto para eliminar completamente el prompt del sistema — dejando al modelo operando solo con el contexto proporcionado por el usuario.
La secuencia de ataque:
En sistemas RAG, los documentos recuperados consumen un espacio de contexto significativo. Un atacante que puede influir en lo que se recupera (a través del envenenamiento RAG ) puede llenar selectivamente el contexto con contenido que sirva a sus objetivos mientras desplaza información legítima.
La investigación ha identificado que las instrucciones en posiciones específicas del contexto tienen una influencia desproporcionada. Los atacantes que entienden el ensamblaje de contexto pueden crear entradas diseñadas para aterrizar en posiciones de alta atención relativas a su carga.
En modelos que soportan contextos muy largos (cientos de miles de tokens), los atacantes pueden incrustar cientos de ejemplos de “demostración” mostrando al modelo produciendo salidas que violan políticas antes de la solicitud maliciosa real. El modelo, condicionado por estas demostraciones, es significativamente más propenso a cumplir.
No coloque todas las instrucciones críticas de seguridad solo al principio del prompt del sistema. Repita las restricciones clave al final del prompt del sistema y considere inyectar recordatorios breves en puntos clave de conversaciones largas.
Implemente límites de longitud de entrada máxima apropiados para su caso de uso. Un chatbot de servicio al cliente rara vez necesita procesar entradas de 100,000 tokens — limitar esto reduce el riesgo de ataques de inundación.
Registre y monitoree los tamaños y composición del contexto. Entradas inusualmente grandes, crecimiento rápido del contexto o composición de contexto inesperada son posibles indicadores de ataque.
Para conversaciones de larga duración, implemente un resumen de contexto que retenga hechos y restricciones clave en lugar del historial de conversación en bruto. Esto resiste ataques de desbordamiento mientras mantiene la continuidad conversacional.
Incluya escenarios de manipulación de contexto en compromisos de pruebas de penetración de IA . Pruebe si los comportamientos de seguridad se mantienen a través de contextos largos y si los prompts del sistema siguen siendo efectivos después de la inundación de contexto.
La ventana de contexto es la cantidad de texto (medida en tokens) que un modelo de lenguaje grande puede procesar a la vez. Incluye el prompt del sistema, el historial de conversación, los documentos recuperados y las salidas de herramientas. Todo lo que el modelo 'sabe' durante una sesión debe caber dentro de esta ventana.
Los atacantes pueden inundar el contexto con contenido irrelevante para sacar las instrucciones tempranas (incluyendo las barreras de seguridad) de la atención efectiva del modelo, inyectar cargas maliciosas que están enterradas en contextos largos y pasadas por alto por los filtros, o explotar comportamientos de truncamiento de contexto para asegurar que el contenido malicioso sobreviva mientras que las instrucciones legítimas no lo hacen.
Las defensas incluyen: anclar instrucciones críticas en múltiples puntos del contexto (no solo al principio), implementar límites de tamaño de contexto, monitorear cargas de contexto inusualmente grandes, usar resumen de contexto para conversaciones largas y probar escenarios de manipulación de contexto en evaluaciones de seguridad.
La manipulación de la ventana de contexto es una superficie de ataque subestimada. Nuestras pruebas de penetración incluyen escenarios de desbordamiento de contexto y envenenamiento estratégico.
Un token en el contexto de los modelos de lenguaje grandes (LLM) es una secuencia de caracteres que el modelo convierte en representaciones numéricas para un pr...
El ventaneo en inteligencia artificial se refiere al procesamiento de datos en segmentos o "ventanas" para analizar información secuencial de manera eficiente. ...
Un modelo de lenguaje grande (LLM) es un tipo de inteligencia artificial entrenada con grandes cantidades de datos textuales para comprender, generar y manipula...