IA
IAUtiles
Seguridad IA

El Gobierno de EE.UU. retira Claude Fable 5 tras un jailbreak multi-agente que alarmó a seguridad nacional

Redacción iAutiles15 de junio de 20264 min
El Gobierno de EE.UU. retira Claude Fable 5 tras un jailbreak multi-agente que alarmó a seguridad nacional

Lo más importante

  • La técnica 'pack hunt' coordina múltiples agentes IA para evadir filtros fragmentando peticiones peligrosas en subtareas aparentemente inocentes.
  • El Gobierno de EE.UU. bloqueó el acceso público a Claude Fable 5 y Mythos 5 el 12 de junio, menos de 72 horas tras el exploit.
  • El prompt de sistema completo de Fable 5 (~120.000 caracteres) fue filtrado en GitHub, exponiendo la arquitectura de seguridad interna.
  • El incidente revela una vulnerabilidad estructural en sistemas multi-agente que los evaluadores de seguridad tradicionales no detectan.

Un atacante conocido como 'Pliny the Liberator' logró evadir los filtros de seguridad de Claude Fable 5 con una técnica de 'pack hunt' que coordina múltiples agentes de IA. El Gobierno de EE.UU. retiró el acceso público al modelo el 12 de junio, dos días después del exploit.

La técnica "pack hunt": caza coordinada con múltiples agentes

El 10 de junio de 2026, un día después del lanzamiento de Claude Fable 5, el atacante conocido como "Pliny the Liberator" publicó en X que había conseguido saltarse los clasificadores de seguridad del modelo mediante lo que denominó una técnica de "pack hunt" o caza en manada: un ataque coordinado con múltiples agentes de IA.

La técnica consistió en fragmentar preguntas potencialmente peligrosas en subtemas aparentemente inocentes —usando sustitución de caracteres Unicode y cirílicos para evadir filtros de palabras— y luego reensamblar las respuestas para obtener información de alto riesgo. Cada agente individual pasaba los filtros de seguridad; el peligro emergía solo al combinar sus salidas.

Orden gubernamental y filtración del prompt de sistema

El 12 de junio, el Gobierno de EE.UU. emitió una orden que retiró el acceso público tanto a Fable 5 como a Mythos 5. La velocidad de la respuesta gubernamental —menos de 48 horas desde la publicación del exploit— refleja el nivel de vigilancia que las agencias de seguridad nacional mantienen ahora sobre los modelos de frontera.

Adicionalmente, el prompt de sistema completo de Fable 5 —unos 120.000 caracteres— fue publicado en GitHub, exponiendo por primera vez la arquitectura de seguridad interna de un modelo de frontera de Anthropic. El incidente plantea preguntas fundamentales sobre si los sistemas de seguridad actuales son suficientes para modelos con capacidades de razonamiento avanzadas operando en entornos multi-agente.

¿Por qué importa esto?

Este incidente importa más allá del modelo específico: demuestra que la complejidad de los sistemas multi-agente crea superficies de ataque que los evaluadores de seguridad tradicionales no están diseñados para detectar. A medida que empresas y desarrolladores despliegan más agentes autónomos en producción, el modelo de seguridad centrado en el modelo individual se queda corto. La velocidad de la respuesta gubernamental también muestra que el sector de la IA ha alcanzado un nivel de vigilancia regulatoria sin precedentes.