Manipulação da Janela de Contexto

A janela de contexto é uma das fronteiras de segurança mais importantes e menos compreendidas em implementações de grandes modelos de linguagem. Ela define quais informações o LLM pode acessar durante uma única chamada de inferência — e é um recurso finito que os atacantes podem explorar deliberadamente.

O Que É a Janela de Contexto?

Um grande modelo de linguagem processa texto como tokens (aproximadamente 3/4 de uma palavra por token). A janela de contexto define o número máximo de tokens que o modelo pode processar de uma só vez. Os modelos modernos variam de 4K a mais de 1M de tokens, mas todos têm limites.

Dentro da janela de contexto, o LLM processa:

  • Prompt do sistema: Instruções definidas pelo desenvolvedor que estabelecem o papel e as restrições do chatbot
  • Histórico de conversação: Turnos anteriores na sessão atual
  • Conteúdo recuperado: Documentos, resultados de banco de dados e saídas de ferramentas retornadas por RAG ou busca
  • Entrada do usuário: A mensagem atual do usuário

Tudo isso aparece como um fluxo unificado para o modelo. O modelo não tem mecanismo inerente para tratar instruções de diferentes fontes de forma diferente — e sua atenção a partes específicas do contexto não é uniforme.

Técnicas de Ataque à Janela de Contexto

Preenchimento de Contexto / Inundação de Contexto

O atacante envia uma entrada extremamente grande — frequentemente um documento extenso, bloco de código ou despejo de texto — para empurrar o conteúdo anterior (particularmente o prompt do sistema) mais longe da posição atual do modelo.

Pesquisas demonstram que os LLMs exibem comportamento de “perdido no meio”: eles prestam mais atenção ao conteúdo no início e no final de contextos longos, e menos atenção às informações no meio. Ao inundar o contexto, um atacante pode posicionar estrategicamente seu payload malicioso (tipicamente no final) enquanto as instruções de segurança anteriores derivam para a zona de baixa atenção no meio.

Exemplo prático: O prompt do sistema de um chatbot estabelece que ele não pode discutir produtos concorrentes. Um atacante envia um documento de 50.000 tokens seguido por um prompt perguntando sobre concorrentes. A instrução do prompt do sistema foi efetivamente diluída.

Overflow de Contexto / Exploração de Truncamento

Quando o contexto fica cheio, o LLM ou sua infraestrutura deve decidir o que descartar. Se o truncamento prioriza a recência (descartando o conteúdo mais antigo primeiro), um atacante pode sobrecarregar o contexto para eliminar o prompt do sistema inteiramente — deixando o modelo operando apenas com contexto fornecido pelo usuário.

A sequência de ataque:

  1. Estabelecer uma conversação com muitos turnos
  2. Gerar respostas longas para maximizar o consumo de contexto
  3. Continuar até que o conteúdo do prompt do sistema seja truncado
  4. Agora emitir instruções maliciosas sem prompt do sistema concorrente

Envenenamento de Contexto via Conteúdo Recuperado

Em sistemas RAG, documentos recuperados consomem espaço significativo de contexto. Um atacante que pode influenciar o que é recuperado (através de envenenamento RAG ) pode preencher seletivamente o contexto com conteúdo que serve seus objetivos enquanto exclui informações legítimas.

Injeção Posicional

Pesquisas identificaram que instruções em posições específicas no contexto têm influência desproporcional. Atacantes que entendem a montagem de contexto podem criar entradas projetadas para pousar em posições de alta atenção em relação ao seu payload.

Injeção de Múltiplos Exemplos

Em modelos que suportam contextos muito longos (centenas de milhares de tokens), atacantes podem incorporar centenas de exemplos de “demonstração” mostrando o modelo produzindo saídas que violam políticas antes da solicitação maliciosa real. O modelo, condicionado por essas demonstrações, é significativamente mais propenso a obedecer.

Logo

Pronto para expandir seu negócio?

Comece seu teste gratuito hoje e veja resultados em dias.

Defesas Contra Manipulação da Janela de Contexto

Ancorar Instruções Críticas

Não coloque todas as instruções críticas de segurança apenas no início do prompt do sistema. Repita restrições-chave no final do prompt do sistema e considere injetar lembretes breves em pontos-chave em conversas longas.

Limites de Tamanho de Contexto

Implemente limites de comprimento máximo de entrada apropriados ao seu caso de uso. Um chatbot de atendimento ao cliente raramente precisa processar entradas de 100.000 tokens — limitar isso reduz o risco de ataques de inundação.

Monitoramento de Contexto

Registre e monitore tamanhos e composição de contexto. Entradas incomumente grandes, crescimento rápido de contexto ou composição inesperada de contexto são indicadores potenciais de ataque.

Sumarização para Conversas Longas

Para conversas de longa duração, implemente sumarização de contexto que retém fatos-chave e restrições em vez do histórico bruto de conversação. Isso resiste a ataques de overflow enquanto mantém a continuidade conversacional.

Testes de Contexto Adversariais

Inclua cenários de manipulação de contexto em engajamentos de testes de penetração de IA . Teste se os comportamentos de segurança se mantêm em contextos longos e se os prompts do sistema permanecem eficazes após inundação de contexto.

Termos Relacionados

Perguntas frequentes

O que é a janela de contexto em um LLM?

A janela de contexto é a quantidade de texto (medida em tokens) que um grande modelo de linguagem pode processar de uma só vez. Ela inclui o prompt do sistema, histórico de conversação, documentos recuperados e saídas de ferramentas. Tudo o que o modelo 'sabe' durante uma sessão deve caber dentro desta janela.

Como os atacantes podem explorar a janela de contexto?

Os atacantes podem inundar o contexto com conteúdo irrelevante para empurrar instruções iniciais (incluindo proteções de segurança) para fora da atenção efetiva do modelo, injetar payloads maliciosos que são enterrados em contextos longos e negligenciados pelos filtros, ou explorar comportamentos de truncamento de contexto para garantir que o conteúdo malicioso sobreviva enquanto as instruções legítimas não sobrevivem.

Como se proteger contra a manipulação da janela de contexto?

As defesas incluem: ancorar instruções críticas em múltiplos pontos no contexto (não apenas no início), implementar limites de tamanho de contexto, monitorar payloads de contexto incomumente grandes, usar sumarização de contexto para conversas longas e testar cenários de manipulação de contexto em avaliações de segurança.

Teste Seu Chatbot Contra Ataques Baseados em Contexto

A manipulação da janela de contexto é uma superfície de ataque subestimada. Nossos testes de penetração incluem cenários de overflow de contexto e envenenamento estratégico.

Saiba mais

Janela de Processamento
Janela de Processamento

Janela de Processamento

Janela de processamento em inteligência artificial refere-se ao processamento de dados em segmentos ou “janelas” para analisar informações sequenciais de forma ...

9 min de leitura
AI NLP +5
Token
Token

Token

Um token, no contexto de grandes modelos de linguagem (LLMs), é uma sequência de caracteres que o modelo converte em representações numéricas para processamento...

3 min de leitura
Token LLM +3