
Jailbreaking de Chatbots de IA: Técnicas, Exemplos e Defesas
O jailbreaking de chatbots de IA contorna as proteções de segurança para fazer o modelo se comportar fora de seus limites pretendidos. Aprenda as técnicas mais ...
Automação de IA
O Project Glasswing da Anthropic usa seu modelo de IA mais poderoso para encontrar milhares de vulnerabilidades zero-day em softwares críticos. Aqui está tudo o que desenvolvedores e profissionais de segurança precisam saber.
A Anthropic acaba de lançar o Project Glasswing — uma iniciativa de cibersegurança que une as maiores empresas de tecnologia do mundo a um modelo de IA poderoso o suficiente para encontrar vulnerabilidades que estavam escondidas em softwares críticos há décadas. O modelo já descobriu milhares de vulnerabilidades zero-day, incluindo bugs em todos os principais sistemas operacionais e navegadores web.
Isso não é um anúncio de produto nem um novo recurso de API. É um esforço defensivo coordenado baseado na premissa de que ciberataques impulsionados por IA estão chegando, e a melhor defesa é encontrar as vulnerabilidades primeiro.
O Project Glasswing é uma iniciativa intersetorial de cibersegurança lançada pela Anthropic em 7 de abril de 2026. Sua missão principal: usar IA para encontrar e corrigir vulnerabilidades em infraestruturas críticas de software antes que atacantes possam explorá-las.
A iniciativa é alimentada pelo Claude Mythos Preview, o modelo de fronteira mais avançado e não lançado da Anthropic. Diferente dos modelos Claude anteriores, o Mythos possui capacidades emergentes em descoberta de vulnerabilidades e desenvolvimento de exploits que representam um salto qualitativo — não provenientes de treinamento explícito em segurança, mas de melhorias gerais no raciocínio sobre código.
O argumento da Anthropic é direto: os modelos de IA atingiram um nível de capacidade em que superam a maioria dos humanos na descoberta e exploração de vulnerabilidades de software. À medida que essas capacidades se proliferam, agentes maliciosos inevitavelmente terão acesso. As consequências — para economias, segurança pública e segurança nacional — podem ser graves. O Project Glasswing é a resposta preventiva: usar esse mesmo poder de forma defensiva.
Os resultados são impressionantes. O Claude Mythos Preview já descobriu milhares de vulnerabilidades zero-day — bugs que passaram despercebidos por anos, às vezes décadas:
| Vulnerabilidade | Software | Idade | Detalhes |
|---|---|---|---|
| Overflow de inteiro com sinal na implementação SACK | OpenBSD | 27 anos | Vulnerabilidade na pilha de rede |
| Exploit de codec H.264 via colisão de sentinela de slice | FFmpeg | 16 anos | Vulnerabilidade no processamento de mídia |
| Corrupção de memória guest-to-host | VMM memory-safe em produção | — | Escape de hypervisor |
| Múltiplas vulnerabilidades | Todos os principais SOs e navegadores | Diversas | Em toda a pilha |
E não apenas encontra bugs — desenvolve exploits funcionais:
Menos de 1% das vulnerabilidades descobertas foram corrigidas até agora. A Anthropic utiliza um cronograma de divulgação responsável de 90+45 dias e hashes de compromisso SHA-3 para provar a posse dos detalhes da vulnerabilidade sem revelá-los.
O Claude Mythos Preview não é apenas incrementalmente melhor — representa um salto de capacidade na análise de segurança de código.
| Benchmark | Mythos Preview | Opus 4.6 | Delta |
|---|---|---|---|
| CyberGym (análise de vulnerabilidades) | 83,1% | 66,6% | +16,5 |
| SWE-bench Pro | 77,8% | 53,4% | +24,4 |
| SWE-bench Verified | 93,9% | 80,8% | +13,1 |
| BrowseComp | 86,9% | 83,7% | +3,2 |
| GPQA Diamond (raciocínio científico) | 94,6% | 91,3% | +3,3 |
| Humanity’s Last Exam (sem ferramentas) | 56,8% | 40,0% | +16,8 |
| Humanity’s Last Exam (com ferramentas) | 64,7% | 53,1% | +11,6 |
A diferença em segurança é dramática. Em um teste de corpus OSS-Fuzz com 7.000 pontos de entrada, o Mythos alcançou 595 crashes nos níveis 1-2, com 10 sequestros completos de fluxo de controle. Contra o motor JavaScript do Firefox 147, desenvolveu 181 exploits funcionais — comparado a apenas 2 do Opus 4.6.
A equipe de red team da Anthropic observa que “o Opus 4.6 tinha uma taxa de sucesso próxima de 0% no desenvolvimento autônomo de exploits.” O Mythos não obteve essas capacidades de treinamento especializado em segurança — elas surgiram de melhorias gerais no raciocínio sobre código. É isso que torna isso poderoso e preocupante ao mesmo tempo.
O modelo opera dentro de um scaffold agêntico:
Isso não é um scanner estático. É um agente autônomo que raciocina sobre o comportamento do código, distingue funcionalidade pretendida da real e identifica vulnerabilidades lógicas como bypasses de autenticação — não apenas padrões de corrupção de memória.
O Project Glasswing não é uma ferramenta de desenvolvimento de uso geral. O acesso é deliberadamente restrito:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, a Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks.
Aproximadamente 40 organizações adicionais responsáveis por infraestruturas críticas de software também têm acesso.
Se você mantém um repositório público com mais de 5.000 estrelas no GitHub ou mais de 1 milhão de downloads mensais no NPM, pode se inscrever através do programa Claude for Open Source .
Este é o caminho mais acessível para desenvolvedores individuais. O programa fornece acesso ao Claude especificamente para análise de segurança de projetos open-source.
Um futuro Cyber Verification Program permitirá que profissionais legítimos de segurança solicitem acesso. Os detalhes ainda não foram anunciados, mas provavelmente exigirá credenciais profissionais ou filiação organizacional.
O Claude Mythos Preview está disponível em preview de pesquisa controlado através do Amazon Bedrock com controles de segurança de nível empresarial — criptografia gerenciada pelo cliente, isolamento VPC e registro detalhado.
Após o preview de pesquisa, o preço da API será de $25 / $125 por milhão de tokens de entrada/saída através da API do Claude, Amazon Bedrock, Google Vertex AI e Microsoft Foundry.
Mesmo que você não tenha acesso direto ao Project Glasswing, suas implicações são significativas:
Suas dependências ficarão mais seguras. O Project Glasswing está analisando o software sobre o qual tudo mais é construído — sistemas operacionais, navegadores, codecs de mídia, pilhas de rede, hypervisors. Os patches originados desta iniciativa melhorarão a segurança de todo o ecossistema.
O cenário de vulnerabilidades está mudando. A IA agora consegue encontrar bugs que décadas de revisão humana não detectaram. Isso eleva o padrão do que significa “código seguro” e acelera o cronograma em que classes conhecidas de vulnerabilidades são descobertas e corrigidas.
Ferramentas de segurança com IA estão chegando. O que o Mythos pode fazer hoje em um ambiente restrito, outros modelos se aproximarão nos próximos anos. Práticas de desenvolvimento conscientes de segurança e ferramentas se tornarão requisitos básicos.
O open-source recebe benefício desproporcional. A Anthropic comprometeu US$ 2,5 milhões para Alpha-Omega e OpenSSF via Linux Foundation, além de US$ 1,5 milhão para a Apache Software Foundation. Combinado com US$ 100 milhões em créditos de uso de modelo para participantes, este é um investimento substancial em segurança open-source.
Nem todos estão entusiasmados. As reações da comunidade foram mistas:
Preocupações com acesso seletivo. Críticos argumentam que restringir o acesso a grandes empresas de tecnologia cria uma assimetria — grandes organizações obtêm melhor segurança enquanto projetos e empresas menores ficam de fora. Alguns veem isso como uma contradição ao status de corporação de benefício público da Anthropic.
Questões de segurança. Foram 24 horas de revisão interna suficientes antes de anunciar um modelo tão capaz? A Anthropic argumenta que vinha se preparando há meses, mas o cronograma público comprimido atraiu escrutínio.
Ceticismo de marketing. Alguns observadores questionam se isso é parcialmente um exercício de marketing antes do potencial IPO da Anthropic, posicionando a empresa como guardiã responsável de IA poderosa.
A dinâmica “condenado se fizer”. Tanto liberar o modelo amplamente quanto restringi-lo têm desvantagens. Liberação ampla arrisca empoderar atacantes. Liberação restrita arrisca criar uma divisão permanente de segurança. Não há resposta simples.
A Anthropic planeja eventualmente transferir a governança do Project Glasswing para “um órgão independente e terceirizado” coordenando projetos de cibersegurança entre setores público e privado.
Aqui estão os caminhos concretos disponíveis hoje:
| Caminho | Requisitos | Como se Inscrever |
|---|---|---|
| Claude for Open Source | Mais de 5.000 estrelas no GitHub ou mais de 1M de downloads no NPM | Inscreva-se aqui |
| Cyber Verification Program | Credenciais de profissional de segurança | Em breve |
| Empresarial (Amazon Bedrock) | Contrato empresarial | Através da AWS |
| Parceiro de Lançamento | Organização de infraestrutura crítica | Por convite |
Para a maioria dos desenvolvedores, o programa Claude for Open Source é o ponto de entrada realista. Se você mantém um projeto qualificado, inscreva-se agora — o programa fornece acesso ao Claude para análise de segurança do seu código-fonte.
O Project Glasswing é a iniciativa de cibersegurança impulsionada por IA mais ambiciosa até hoje. Ela une um modelo de IA capaz de encontrar zero-days de décadas autonomamente com as organizações responsáveis pelos softwares mais críticos do mundo.
O modelo de acesso restrito é controverso, mas possivelmente necessário — as mesmas capacidades que fazem do Mythos um defensor excepcional o tornariam um atacante excepcional nas mãos erradas. Por enquanto, os benefícios fluem através de divulgação coordenada e correções para todo o ecossistema.
Para desenvolvedores, a lição é prática: as dependências do seu software estão prestes a receber mais escrutínio de segurança do que jamais tiveram. As vulnerabilidades que o Mythos está encontrando hoje se tornarão patches nos próximos meses. Mantenha suas dependências atualizadas, fique atento a avisos de segurança e, se você mantém um projeto open-source qualificado, inscreva-se no programa Claude for Open Source.
A era da descoberta de vulnerabilidades impulsionada por IA chegou. O Project Glasswing é a primeira tentativa coordenada de garantir que os defensores se movam primeiro.
Construído com FlowHunt . Fique por dentro dos últimos desenvolvimentos em IA e cibersegurança no nosso blog .
Viktor Zeman é co-proprietário da QualityUnit. Mesmo após 20 anos liderando a empresa, ele continua sendo principalmente um engenheiro de software, especializado em IA, SEO programático e desenvolvimento backend. Ele contribuiu para inúmeros projetos, incluindo LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab e muitos outros.

O FlowHunt ajuda você a construir pipelines de IA automatizados com segurança de nível empresarial — usando os melhores modelos disponíveis, incluindo o Claude.

O jailbreaking de chatbots de IA contorna as proteções de segurança para fazer o modelo se comportar fora de seus limites pretendidos. Aprenda as técnicas mais ...

A Inteligência Artificial (IA) na cibersegurança utiliza tecnologias de IA, como aprendizado de máquina e PLN, para detectar, prevenir e responder a ameaças cib...

Uma comparação detalhada de IronClaw, NemoClaw e OpenClaw, cobrindo arquitetura, modelos de segurança e qual framework de agente de IA se adequa ao seu caso de ...
Consentimento de Cookies
Usamos cookies para melhorar sua experiência de navegação e analisar nosso tráfego. See our privacy policy.