
Ventaneo
El ventaneo en inteligencia artificial se refiere al procesamiento de datos en segmentos o "ventanas" para analizar información secuencial de manera eficiente. ...

La manipulación de la ventana de contexto se refiere a ataques que explotan la ventana de contexto finita de los modelos de lenguaje grandes — incluyendo relleno de contexto, desbordamiento de contexto y envenenamiento estratégico — para degradar el rendimiento, ocultar cargas maliciosas o anular instrucciones anteriores.
La ventana de contexto es una de las fronteras de seguridad más importantes y menos comprendidas en las implementaciones de modelos de lenguaje grandes. Define qué información puede acceder el LLM durante una única llamada de inferencia — y es un recurso finito que los atacantes pueden explotar deliberadamente.
Un modelo de lenguaje grande procesa el texto como tokens (aproximadamente 3/4 de una palabra por token). La ventana de contexto define el número máximo de tokens que el modelo puede procesar a la vez. Los modelos modernos varían desde 4K hasta más de 1M de tokens, pero todos tienen límites.
Dentro de la ventana de contexto, el LLM procesa:
Todo esto aparece como un flujo unificado para el modelo. El modelo no tiene un mecanismo inherente para tratar las instrucciones de diferentes fuentes de manera diferente — y su atención a partes específicas del contexto no es uniforme.
El atacante envía una entrada extremadamente grande — a menudo un documento extenso, bloque de código o volcado de texto — para empujar el contenido anterior (particularmente el prompt del sistema) más lejos de la posición actual del modelo.
La investigación demuestra que los LLM exhiben un comportamiento de “perdido en el medio”: prestan más atención al contenido al principio y al final de contextos largos, y menos atención a la información en el medio. Al inundar el contexto, un atacante puede posicionar estratégicamente su carga maliciosa (típicamente al final) mientras que las instrucciones de seguridad anteriores se desplazan hacia la zona media de baja atención.
Ejemplo práctico: El prompt del sistema de un chatbot establece que no puede discutir productos de la competencia. Un atacante envía un documento de 50,000 tokens seguido de un prompt preguntando sobre competidores. La instrucción del prompt del sistema ha sido efectivamente diluida.
Cuando el contexto se llena, el LLM o su infraestructura debe decidir qué eliminar. Si el truncamiento prioriza la recencia (eliminando primero el contenido más antiguo), un atacante puede desbordar el contexto para eliminar completamente el prompt del sistema — dejando al modelo operando solo con el contexto proporcionado por el usuario.
La secuencia de ataque:
En sistemas RAG, los documentos recuperados consumen un espacio de contexto significativo. Un atacante que puede influir en lo que se recupera (a través del envenenamiento RAG ) puede llenar selectivamente el contexto con contenido que sirva a sus objetivos mientras desplaza información legítima.
La investigación ha identificado que las instrucciones en posiciones específicas del contexto tienen una influencia desproporcionada. Los atacantes que entienden el ensamblaje de contexto pueden crear entradas diseñadas para aterrizar en posiciones de alta atención relativas a su carga.
En modelos que soportan contextos muy largos (cientos de miles de tokens), los atacantes pueden incrustar cientos de ejemplos de “demostración” mostrando al modelo produciendo salidas que violan políticas antes de la solicitud maliciosa real. El modelo, condicionado por estas demostraciones, es significativamente más propenso a cumplir.
No coloque todas las instrucciones críticas de seguridad solo al principio del prompt del sistema. Repita las restricciones clave al final del prompt del sistema y considere inyectar recordatorios breves en puntos clave de conversaciones largas.
Implemente límites de longitud de entrada máxima apropiados para su caso de uso. Un chatbot de servicio al cliente rara vez necesita procesar entradas de 100,000 tokens — limitar esto reduce el riesgo de ataques de inundación.
Registre y monitoree los tamaños y composición del contexto. Entradas inusualmente grandes, crecimiento rápido del contexto o composición de contexto inesperada son posibles indicadores de ataque.
Para conversaciones de larga duración, implemente un resumen de contexto que retenga hechos y restricciones clave en lugar del historial de conversación en bruto. Esto resiste ataques de desbordamiento mientras mantiene la continuidad conversacional.
Incluya escenarios de manipulación de contexto en compromisos de pruebas de penetración de IA . Pruebe si los comportamientos de seguridad se mantienen a través de contextos largos y si los prompts del sistema siguen siendo efectivos después de la inundación de contexto.
La manipulación de la ventana de contexto es una superficie de ataque subestimada. Nuestras pruebas de penetración incluyen escenarios de desbordamiento de contexto y envenenamiento estratégico.

El ventaneo en inteligencia artificial se refiere al procesamiento de datos en segmentos o "ventanas" para analizar información secuencial de manera eficiente. ...

La seguridad de LLM abarca las prácticas, técnicas y controles utilizados para proteger las implementaciones de modelos de lenguaje grandes de una clase única d...

Un token en el contexto de los modelos de lenguaje grandes (LLM) es una secuencia de caracteres que el modelo convierte en representaciones numéricas para un pr...
Consentimiento de Cookies
Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.