
Jailbreaking de Chatbots de IA: Técnicas, Ejemplos y Defensas
El jailbreaking de chatbots de IA evita las barreras de seguridad para hacer que el modelo se comporte fuera de sus límites previstos. Aprende las técnicas más ...
Project Glasswing de Anthropic utiliza su modelo de IA más potente para encontrar miles de vulnerabilidades zero-day en software crítico. Aquí tienes todo lo que los desarrolladores y profesionales de seguridad necesitan saber.
Anthropic acaba de lanzar Project Glasswing — una iniciativa de ciberseguridad que une a las mayores empresas tecnológicas del mundo con un modelo de IA lo suficientemente potente como para encontrar vulnerabilidades que han estado ocultas en software crítico durante décadas. El modelo ya ha descubierto miles de vulnerabilidades zero-day, incluyendo fallos en todos los principales sistemas operativos y navegadores web.
Esto no es un anuncio de producto ni una nueva función de API. Es un esfuerzo defensivo coordinado basado en la premisa de que los ciberataques impulsados por IA están llegando, y la mejor defensa es encontrar las vulnerabilidades primero.
Project Glasswing es una iniciativa de ciberseguridad interindustrial lanzada por Anthropic el 7 de abril de 2026. Su misión principal: usar IA para encontrar y parchear vulnerabilidades en la infraestructura de software crítico antes de que los atacantes puedan explotarlas.
La iniciativa funciona con Claude Mythos Preview, el modelo frontera más avanzado y no publicado de Anthropic. A diferencia de los modelos anteriores de Claude, Mythos tiene capacidades emergentes en descubrimiento de vulnerabilidades y desarrollo de exploits que representan un salto cualitativo — no por entrenamiento específico en seguridad, sino por mejoras generales en el razonamiento sobre código.
El argumento de Anthropic es directo: los modelos de IA han alcanzado un nivel de capacidad en el que superan a la mayoría de los humanos en la búsqueda y explotación de vulnerabilidades de software. A medida que estas capacidades se proliferan, los actores maliciosos inevitablemente obtendrán acceso. Las consecuencias — para las economías, la seguridad pública y la seguridad nacional — podrían ser graves. Project Glasswing es la respuesta preventiva: usar ese mismo poder de forma defensiva.
Los resultados son impactantes. Claude Mythos Preview ya ha descubierto miles de vulnerabilidades zero-day — fallos que han pasado desapercibidos durante años, a veces décadas:
| Vulnerabilidad | Software | Antigüedad | Detalles |
|---|---|---|---|
| Desbordamiento de entero con signo en la implementación SACK | OpenBSD | 27 años | Vulnerabilidad en la pila de red |
| Exploit del códec H.264 mediante colisión de centinela de slice | FFmpeg | 16 años | Vulnerabilidad en procesamiento de medios |
| Corrupción de memoria de invitado a host | VMM de producción con seguridad de memoria | — | Escape de hipervisor |
| Múltiples vulnerabilidades | Todos los principales SO y navegadores web | Varios | En toda la pila |
Y no solo encuentra fallos — desarrolla exploits funcionales:
Menos del 1% de las vulnerabilidades descubiertas han sido parcheadas hasta ahora. Anthropic utiliza un cronograma de divulgación responsable de 90+45 días y hashes de compromiso SHA-3 para demostrar la posesión de los detalles de las vulnerabilidades sin revelarlos.
Claude Mythos Preview no es solo incrementalmente mejor — representa un salto en capacidad en el análisis de seguridad de código.
| Benchmark | Mythos Preview | Opus 4.6 | Diferencia |
|---|---|---|---|
| CyberGym (análisis de vulnerabilidades) | 83.1% | 66.6% | +16.5 |
| SWE-bench Pro | 77.8% | 53.4% | +24.4 |
| SWE-bench Verified | 93.9% | 80.8% | +13.1 |
| BrowseComp | 86.9% | 83.7% | +3.2 |
| GPQA Diamond (razonamiento científico) | 94.6% | 91.3% | +3.3 |
| Humanity’s Last Exam (sin herramientas) | 56.8% | 40.0% | +16.8 |
| Humanity’s Last Exam (con herramientas) | 64.7% | 53.1% | +11.6 |
La brecha en seguridad es dramática. En una prueba de corpus de OSS-Fuzz con 7,000 puntos de entrada, Mythos logró 595 crashes en los niveles 1-2, con 10 secuestros completos de flujo de control. Contra el motor JavaScript de Firefox 147, desarrolló 181 exploits funcionales — comparado con solo 2 de Opus 4.6.
El equipo rojo de Anthropic señala que “Opus 4.6 tenía una tasa de éxito cercana al 0% en el desarrollo autónomo de exploits”. Mythos no obtuvo estas capacidades de entrenamiento especializado en seguridad — emergieron de mejoras generales en el razonamiento sobre código. Eso es lo que lo hace tanto potente como preocupante.
El modelo opera dentro de un scaffold agéntico:
Esto no es un escáner estático. Es un agente autónomo que razona sobre el comportamiento del código, distingue entre funcionalidad prevista y real, e identifica vulnerabilidades lógicas como bypasses de autenticación — no solo patrones de corrupción de memoria.
Project Glasswing no es una herramienta de uso general para desarrolladores. El acceso está deliberadamente restringido:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.
Aproximadamente 40 organizaciones adicionales responsables de la infraestructura de software crítico también tienen acceso.
Si mantienes un repositorio público con más de 5,000 estrellas en GitHub o más de 1M de descargas mensuales en NPM, puedes postularte a través del programa Claude for Open Source .
Este es el camino más accesible para desarrolladores individuales. El programa proporciona acceso a Claude específicamente para el análisis de seguridad de proyectos de código abierto.
Un próximo Cyber Verification Program permitirá a los profesionales de seguridad legítimos solicitar acceso. Los detalles aún no se han anunciado, pero probablemente requerirá credenciales profesionales o afiliación organizacional.
Claude Mythos Preview está disponible en vista previa de investigación con acceso controlado a través de Amazon Bedrock con controles de seguridad de nivel empresarial — cifrado gestionado por el cliente, aislamiento VPC y registro detallado.
Después de la vista previa de investigación, el precio de la API será de $25 / $125 por millón de tokens de entrada/salida a través de la API de Claude, Amazon Bedrock, Google Vertex AI y Microsoft Foundry.
Incluso si no tienes acceso directo a Project Glasswing, sus implicaciones son significativas:
Tus dependencias serán más seguras. Project Glasswing está escaneando el software sobre el que se construye todo lo demás — sistemas operativos, navegadores, códecs de medios, pilas de red, hipervisores. Los parches que surjan de esta iniciativa mejorarán la seguridad de todo el ecosistema.
El panorama de vulnerabilidades está cambiando. La IA ahora puede encontrar fallos que décadas de revisión humana pasaron por alto. Esto eleva el estándar de lo que significa “código seguro” y acelera el cronograma en el que las clases de vulnerabilidades conocidas se descubren y parchean.
Las herramientas de seguridad impulsadas por IA están llegando. Lo que Mythos puede hacer hoy en un entorno restringido, otros modelos lo alcanzarán en los próximos años. Las prácticas de desarrollo conscientes de la seguridad y las herramientas correspondientes se convertirán en requisitos básicos.
El código abierto recibe un beneficio desproporcionado. Anthropic ha comprometido $2.5 millones para Alpha-Omega y OpenSSF a través de la Linux Foundation, más $1.5 millones para la Apache Software Foundation. Combinado con $100 millones en créditos de uso de modelos para los participantes, esta es una inversión sustancial en la seguridad del código abierto.
No todos están entusiasmados. Las reacciones de la comunidad han sido mixtas:
Preocupaciones por el acceso selectivo. Los críticos argumentan que restringir el acceso a las grandes empresas tecnológicas crea una asimetría — las grandes organizaciones obtienen mejor seguridad mientras que los proyectos y empresas más pequeñas quedan excluidos. Algunos ven esto como una contradicción con el estatus de corporación de beneficio público de Anthropic.
Preguntas sobre seguridad. ¿Fueron suficientes 24 horas de revisión interna antes de anunciar un modelo tan capaz? Anthropic argumenta que han estado preparándose durante meses, pero el cronograma público comprimido ha generado escrutinio.
Escepticismo de marketing. Algunos observadores cuestionan si esto es en parte un ejercicio de marketing antes de la posible OPV de Anthropic, posicionando a la empresa como administradora responsable de IA potente.
La dinámica de “pierdas como pierdas”. Tanto liberar el modelo ampliamente como restringirlo tienen desventajas. La liberación amplia arriesga empoderar a los atacantes. La liberación restringida arriesga crear una brecha de seguridad permanente. No hay una respuesta limpia.
Anthropic planea eventualmente transferir la gobernanza de Project Glasswing a “un organismo independiente de terceros” que coordine proyectos de ciberseguridad entre los sectores privado y público.
Estos son los caminos concretos disponibles hoy:
| Camino | Requisitos | Cómo postularse |
|---|---|---|
| Claude for Open Source | Más de 5,000 estrellas en GitHub o más de 1M de descargas en NPM | Postúlate aquí |
| Cyber Verification Program | Credenciales de profesional de seguridad | Próximamente |
| Empresas (Amazon Bedrock) | Acuerdo empresarial | A través de AWS |
| Socio de lanzamiento | Organización de infraestructura crítica | Por invitación |
Para la mayoría de los desarrolladores, el programa Claude for Open Source es el punto de entrada realista. Si mantienes un proyecto que cumple los requisitos, postúlate ahora — el programa proporciona acceso a Claude para el análisis de seguridad de tu código base.
Project Glasswing es la iniciativa de ciberseguridad impulsada por IA más ambiciosa hasta la fecha. Combina un modelo de IA capaz de encontrar de forma autónoma vulnerabilidades zero-day de décadas de antigüedad con las organizaciones responsables del software más crítico del mundo.
El modelo de acceso restringido es controvertido pero posiblemente necesario — las mismas capacidades que hacen de Mythos un defensor excepcional lo convertirían en un atacante excepcional en las manos equivocadas. Por ahora, los beneficios fluyen a través de la divulgación coordinada y el parcheado hacia todo el ecosistema.
Para los desarrolladores, la conclusión es práctica: las dependencias de tu software están a punto de recibir más escrutinio de seguridad del que jamás han tenido. Las vulnerabilidades que Mythos está encontrando hoy se convertirán en parches en los próximos meses. Mantén tus dependencias actualizadas, vigila los avisos de seguridad y, si mantienes un proyecto de código abierto que cumple los requisitos, postúlate al programa Claude for Open Source.
La era del descubrimiento de vulnerabilidades impulsado por IA ha llegado. Project Glasswing es el primer intento coordinado de asegurar que los defensores se muevan primero.
Construido con FlowHunt . Mantente al día con los últimos avances en IA y ciberseguridad en nuestro blog .
Viktor Zeman es copropietario de QualityUnit. Incluso después de 20 años liderando la empresa, sigue siendo principalmente un ingeniero de software, especializado en IA, SEO programático y desarrollo backend. Ha contribuido a numerosos proyectos, incluidos LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab y muchos otros.


El jailbreaking de chatbots de IA evita las barreras de seguridad para hacer que el modelo se comporte fuera de sus límites previstos. Aprende las técnicas más ...

La Inteligencia Artificial (IA) en ciberseguridad aprovecha tecnologías de IA como el aprendizaje automático y el procesamiento de lenguaje natural (NLP) para d...

El jailbreaking de IA se refiere a técnicas que evaden las barreras de seguridad y las restricciones de comportamiento de los modelos de lenguaje grandes, provo...
Consentimiento de Cookies
Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.