La técnica "pack hunt": caza coordinada con múltiples agentes
El 10 de junio de 2026, un día después del lanzamiento de Claude Fable 5, el atacante conocido como "Pliny the Liberator" publicó en X que había conseguido saltarse los clasificadores de seguridad del modelo mediante lo que denominó una técnica de "pack hunt" o caza en manada: un ataque coordinado con múltiples agentes de IA.
La técnica consistió en fragmentar preguntas potencialmente peligrosas en subtemas aparentemente inocentes —usando sustitución de caracteres Unicode y cirílicos para evadir filtros de palabras— y luego reensamblar las respuestas para obtener información de alto riesgo. Cada agente individual pasaba los filtros de seguridad; el peligro emergía solo al combinar sus salidas.
Orden gubernamental y filtración del prompt de sistema
El 12 de junio, el Gobierno de EE.UU. emitió una orden que retiró el acceso público tanto a Fable 5 como a Mythos 5. La velocidad de la respuesta gubernamental —menos de 48 horas desde la publicación del exploit— refleja el nivel de vigilancia que las agencias de seguridad nacional mantienen ahora sobre los modelos de frontera.
Adicionalmente, el prompt de sistema completo de Fable 5 —unos 120.000 caracteres— fue publicado en GitHub, exponiendo por primera vez la arquitectura de seguridad interna de un modelo de frontera de Anthropic. El incidente plantea preguntas fundamentales sobre si los sistemas de seguridad actuales son suficientes para modelos con capacidades de razonamiento avanzadas operando en entornos multi-agente.