Seguridad

Agentjacking: el nuevo ciberataque que usa errores falsos de Sentry para hackear Claude Code y Cursor

22 de junio de 20264 minpor IAUtiles

Agentjacking es una nueva clase de ataque que engaña a agentes de IA de programación con informes de error falsos de Sentry, logrando un 85% de tasa de éxito.

La comunidad de ciberseguridad ha bautizado como Agentjacking a una nueva clase de ataque diseñada específicamente para la era de los agentes de IA en programación. El mecanismo es elegante y peligroso: los atacantes crean informes de error falsos de plataformas como Sentry que contienen instrucciones de markdown inyectadas. Cuando el agente de IA —ya sea Claude Code, Cursor o OpenAI Codex— lee el informe para ayudar a depurar el error, interpreta las instrucciones inyectadas como guía legítima y ejecuta los comandos maliciosos.

Los datos que ha trascendido del informe de divulgación son alarmantes: la tasa de explotación alcanza el 85% y ya ha afectado a 2.388 organizaciones. No existe todavía un parche universal. Las correcciones están en desarrollo en los principales laboratorios, pero por ahora la mitigación recae enteramente en el comportamiento del desarrollador.

Por qué funciona tan bien

El ataque explota algo que los equipos de desarrollo han construido durante meses: la confianza en el criterio de su agente de IA. Cuando Claude Code recomienda ejecutar un comando para resolver un error, el desarrollador lo ejecuta. Esa automatización del juicio es exactamente la superficie de ataque que Agentjacking aprovecha. El error no es del modelo —los LLMs no pueden distinguir instrucciones reales de instrucciones inyectadas en datos externos si no están diseñados explícitamente para ello— sino de los flujos de trabajo que asumen que los datos del entorno son fiables.

Qué hacer ahora mismo

La comunidad de seguridad recomienda una medida inmediata: añadir una capa de revisión humana entre la plataforma de gestión de errores y el agente de IA. No pasar informes de Sentry, Datadog o similares directamente al agente sin revisión manual previa. Tratar toda la salida de herramientas de monitorización como entrada no confiable. Agentjacking es considerada la primera clase de ataque diseñada específicamente para el paradigma de los agentes de codificación, y los expertos anticipan que no será la última.

← Volver a noticias