OpenAI, desarrolladora de ChatGPT, lanzó EVMbench, una herramienta desarrollada junto a Paradigm que permite medir el rendimiento de agentes de inteligencia artificial en contratos inteligentes de Ethereum:

El benchmark incluye 120 vulnerabilidades reales extraídas de 40 auditorías públicas de competencias como Code4rena. El modelo GPT-5.3-Codex alcanzó un 72,2% de éxito al explotar fallos, frente al 31,9% que lograba GPT-5.

OpenAI lanzó una IA que detecta fallas en contratos inteligentes en Ethereum

La herramienta evalúa tres capacidades clave. Primero, detecta vulnerabilidades en código abierto usando datos de auditorías públicas y califica su riesgo. Segundo, propone correcciones sin romper el funcionamiento del protocolo. Tercero, simula ataques para drenar fondos en entornos sandbox seguros.

Sin embargo, el rendimiento baja en detección y parcheo. Los agentes suelen detenerse tras identificar un solo problema en lugar de auditar todo el código. Además, eliminar vulnerabilidades sutiles sin afectar la funcionalidad sigue siendo un desafío.

OpenAI justificó el lanzamiento por el peso económico del ecosistema: los contratos inteligentes garantizan rutinariamente u$s100.000 millones en criptoactivos. 

"A medida que los agentes de IA mejoran sus habilidades de lectura, escritura y ejecución de código, cobra cada vez mayor importancia medir sus capacidades en entornos económicamente relevantes", afirmó la compañía.

OpenAI lanzó un nuevo modelo de IA pensado para escalar la blockchain de Ethereum

La solución automatizada EVMbench llega en un momento de expansión acelerada de agentes autónomos en cripto.

Recientemente, Coinbase lanzó Agentic Wallets para operar en la red Base sin comisiones y Phantom habilitó un servidor MCP para que agentes gestionen saldos en Solana de forma autónoma.

Te puede interesar