La creadora de ChatGPT y Paradigm lanzaron EVMbench, benchmark de IA para auditar contratos inteligentes de Ethereum con u$s100.000 millones en juego
19.02.2026 • 17:40hs • MUNDO CRIPTO
MUNDO CRIPTO
OpenAI lanzó una IA que detecta fallas en contratos inteligentes en Ethereum: cómo funciona
OpenAI, desarrolladora de ChatGPT, lanzó EVMbench, una herramienta desarrollada junto a Paradigm que permite medir el rendimiento de agentes de inteligencia artificial en contratos inteligentes de Ethereum:
- Detectar fallas
- Proponer parches
- Simular ataques en entornos controlados
El benchmark incluye 120 vulnerabilidades reales extraídas de 40 auditorías públicas de competencias como Code4rena. El modelo GPT-5.3-Codex alcanzó un 72,2% de éxito al explotar fallos, frente al 31,9% que lograba GPT-5.
OpenAI lanzó una IA que detecta fallas en contratos inteligentes en Ethereum
La herramienta evalúa tres capacidades clave. Primero, detecta vulnerabilidades en código abierto usando datos de auditorías públicas y califica su riesgo. Segundo, propone correcciones sin romper el funcionamiento del protocolo. Tercero, simula ataques para drenar fondos en entornos sandbox seguros.
Sin embargo, el rendimiento baja en detección y parcheo. Los agentes suelen detenerse tras identificar un solo problema en lugar de auditar todo el código. Además, eliminar vulnerabilidades sutiles sin afectar la funcionalidad sigue siendo un desafío.
OpenAI justificó el lanzamiento por el peso económico del ecosistema: los contratos inteligentes garantizan rutinariamente u$s100.000 millones en criptoactivos.
"A medida que los agentes de IA mejoran sus habilidades de lectura, escritura y ejecución de código, cobra cada vez mayor importancia medir sus capacidades en entornos económicamente relevantes", afirmó la compañía.
OpenAI lanzó un nuevo modelo de IA pensado para escalar la blockchain de Ethereum
La solución automatizada EVMbench llega en un momento de expansión acelerada de agentes autónomos en cripto.
Recientemente, Coinbase lanzó Agentic Wallets para operar en la red Base sin comisiones y Phantom habilitó un servidor MCP para que agentes gestionen saldos en Solana de forma autónoma.