En Resumen

  • Microsoft reveló una falla ya parcheada en la GitHub Action de Claude Code que permitía exponer credenciales en pipelines de desarrollo.
  • Los atacantes podían ocultar instrucciones maliciosas en issues o pull requests para que el agente leyera y alterara credenciales sensibles.
  • Anthropic corrigió la vulnerabilidad el 5 de mayo con la versión 2.1.128, tras la divulgación responsable de Microsoft vía HackerOne.

Investigadores de Microsoft revelaron una vulnerabilidad ya parcheada en la GitHub Action de Claude Code de Anthropic que podría haber permitido a atacantes exponer credenciales almacenadas en pipelines de desarrollo de software mediante la manipulación del agente de IA a través de contenido malicioso en GitHub.

En una entrada de blog publicada el viernes, Microsoft advirtió que los agentes de codificación de IA que operan dentro de flujos de trabajo CI/CD pueden generar nuevos riesgos de seguridad, dado que esos entornos suelen tener acceso a claves API, credenciales en la nube y otra información sensible.

"Iniciamos esta investigación tras observar intentos de inyección de prompt en repositorios públicos que utilizan flujos de trabajo de GitHub asistidos por IA de múltiples proveedores, donde contenido controlado por atacantes en issues o pull requests es procesado por el agente de IA y podría influir en el uso de sus herramientas", escribió Microsoft.

En GitHub, un pull request permite a los desarrolladores proponer cambios en un repositorio de código y que esos cambios sean revisados antes de ser aprobados e integrados.

El informe surge en un momento en que los ataques de inyección de prompt se han convertido en una de las mayores amenazas de seguridad que enfrentan los agentes de IA. En un ataque de inyección de prompt, un atacante oculta instrucciones en contenido como correos electrónicos, documentos, sitios web o comentarios de código, haciendo que el sistema de IA siga esas instrucciones en lugar de las del usuario.

Lanzado en octubre, Claude Code es el agente de codificación de IA de Anthropic para tareas de desarrollo de software. La herramienta fue objeto de escrutinio en marzo, después de que Anthropic filtrara accidentalmente más de 500.000 líneas de su código fuente, exponiendo detalles de su arquitectura interna y generando un análisis generalizado por parte de investigadores y desarrolladores.

Según Microsoft, los atacantes podrían usar ataques de inyección de prompt ocultos en issues, pull requests o comentarios de GitHub para manipular a Claude Code y hacer que acceda a archivos con credenciales sensibles.

Para poner a prueba la vulnerabilidad, Microsoft creó un flujo de trabajo en GitHub y ocultó instrucciones maliciosas detrás de contenido alojado en un dominio bajo su control, lo que permitió a los investigadores eludir las protecciones de seguridad de Claude. El ataque de inyección de prompt engañó a Claude para que leyera credenciales sensibles y las alterara con el fin de evadir tanto las salvaguardas de Claude como las herramientas de escaneo de secretos de GitHub. Microsoft señaló que un atacante podría luego reconstruir la credencial y exfiltrarla a través de comentarios en issues, registros de flujos de trabajo, solicitudes web o comandos de shell.

"Para eludir los mecanismos de seguridad de rechazo de Sonnet, ocultamos el payload del shell detrás de una respuesta proveniente de nuestro dominio controlado", afirmó la empresa. "También habilitamos el flujo de trabajo para que pudiera ser activado por usuarios sin permisos de escritura, con el fin de garantizar que las mitigaciones de depuración de variables de entorno de Anthropic estuvieran activas durante nuestras pruebas".

Anthropic parcheó la falla el 5 de mayo con la versión 2.1.128 de Claude Code, luego de que Microsoft revelara la vulnerabilidad a través de HackerOne el 29 de abril.

A pesar de múltiples capas de controles de seguridad integrados, Microsoft descubrió que un atacante determinado podría potencialmente manipular a un agente de IA para que exponga información sensible.

"Estamos entrando en una era en la que el lenguaje natural es código ejecutable, y las entradas no confiables, como los issues de GitHub, deben tratarse como hostiles por defecto", señaló. "Un solo comentario cuidadosamente elaborado, combinado con un límite de confianza malinterpretado, es todo lo que se necesita para llevarse credenciales de producción".

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.