En Resumen

  • OpenAI y Paradigm lanzaron EVMbench, herramienta de IA para detectar vulnerabilidades en contratos inteligentes de Ethereum.
  • La herramienta evalúa agentes en tres modos: detectar, corregir y explotar, con pruebas basadas en 120 vulnerabilidades reales.
  • GPT-5.3-Codex alcanzó un 72,2% en modo explotación, superando ampliamente el 31,9% registrado por GPT-5 seis meses antes.

El creador de ChatGPT OpenAI, y Paradigm, una firma de inversión enfocada en criptomonedas, han presentado EVMbench, una herramienta diseñada para mejorar la seguridad de los contratos inteligentes de la Ethereum Virtual Machine.

EVMbench está diseñada para evaluar la capacidad de los agentes de inteligencia artificial para detectar, corregir y explotar vulnerabilidades de alta severidad en los contratos inteligentes de la Ethereum Virtual Machine (EVM).

Los contratos inteligentes son el núcleo de la red Ethereum, ya que contienen el código que impulsa todo, desde los protocolos de finanzas descentralizadas hasta los lanzamientos de tokens. El número semanal de contratos inteligentes desplegados en Ethereum alcanzó un máximo histórico de 1,7 millones en noviembre de 2025, con 669.500 desplegados solo la semana pasada, según Token Terminal.

EVMbench se basa en 120 vulnerabilidades seleccionadas de 40 auditorías, la mayoría provenientes de competencias de auditoría abiertas como Code4rena, según una publicación de blog de OpenAI. También incluye escenarios del proceso de auditoría de seguridad de Tempo, la blockchain de Capa 1 desarrollada por Stripe, enfocada en pagos con stablecoins de alto rendimiento y bajo costo.

El gigante de pagos Stripe lanzó la testnet pública de Tempo en diciembre, señalando en ese momento que estaba siendo construida con aportes de Visa, Shopify y OpenAI, entre otros.

El objetivo es anclar las pruebas en código del mundo real con relevancia económica, especialmente ante la expansión de los pagos con stablecoins impulsados por IA, agregó la firma.

EVMbench está diseñada para evaluar modelos de IA en tres modos: detectar, corregir y explotar. En el modo "detectar", los agentes auditan repositorios y se califican según su capacidad de identificar vulnerabilidades reales. En el modo "corregir", los agentes deben eliminar vulnerabilidades sin romper la funcionalidad prevista. Finalmente, en la fase de "explotar", los agentes intentan ataques de drenado de fondos de extremo a extremo en un entorno blockchain aislado, con calificación realizada mediante repetición determinista de transacciones.

En el modo de explotación, GPT-5.3-Codex, ejecutado a través del Codex CLI de OpenAI, obtuvo una puntuación del 72,2%, en comparación con el 31,9% de GPT-5, lanzado seis meses antes. El rendimiento fue más débil en las tareas de detección y corrección, donde los agentes a veces no lograron realizar auditorías exhaustivas o tuvieron dificultades para preservar la funcionalidad completa del contrato.

Los investigadores de OpenAI advirtieron que EVMbench no captura completamente la complejidad de seguridad del mundo real. Sin embargo, añadieron que medir el rendimiento de la IA en entornos con relevancia económica es fundamental, a medida que los modelos se convierten en herramientas poderosas tanto para atacantes como para defensores.

Sam Altman, de OpenAI, y Vitalik Buterin, cofundador de Ethereum, han tenido posiciones encontradas sobre el ritmo del desarrollo de la IA.

En enero de 2025, Altman afirmó que su firma estaba "segura de saber cómo construir AGI tal como la hemos entendido tradicionalmente". Sin embargo, Buterin defendió que los sistemas de IA deberían incluir una capacidad de "pausa suave" que pudiera restringir temporalmente las operaciones de IA a escala industrial si surgen señales de alerta.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.