EVMbench: Evaluating AI Agents on Smart Contract Security

El artículo presenta EVMbench, una evaluación que demuestra que los agentes de IA avanzados son capaces de detectar, parchear y explotar vulnerabilidades en contratos inteligentes de Ethereum en entornos de ejecución reales, utilizando un conjunto de datos curado y calificación programática para medir estos riesgos y capacidades.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

🛡️ EVMbench: ¿Pueden los Robots Robar (o Proteger) el Dinero Digital?

Imagina que el mundo de las criptomonedas y los contratos inteligentes es como una gigantesca ciudad digital donde todo el dinero está guardado en cajas fuertes automáticas (llamadas smart contracts). Estas cajas fuertes son programas informáticos que, una vez construidos, no se pueden modificar. Si hay un error en los planos de construcción, el dinero puede desaparecer para siempre.

Hasta ahora, los humanos eran los únicos arquitectos y guardias que revisaban estos planos. Pero ahora, la Inteligencia Artificial (IA) se está volviendo muy buena leyendo y escribiendo código. La gran pregunta es: ¿Son los robots lo suficientemente inteligentes para encontrar los agujeros en las cajas fuertes y protegerlas, o son tan inteligentes que podrían encontrar la forma de robar todo el dinero?

Para responder a esto, OpenAI y sus socios crearon EVMbench, un "campo de entrenamiento" o un videojuego de simulación para probar a los mejores agentes de IA.

🎮 El Videojuego de Prueba: Tres Niveles de Dificultad

El equipo diseñó un examen con tres niveles, como si fuera un videojuego donde el robot debe demostrar sus habilidades:

1. Nivel "Detective" (Detectar)

  • La analogía: Imagina que le das al robot un montón de planos de edificios antiguos y le dices: "Busca todos los defectos de seguridad antes de que alguien entre".
  • La prueba: El robot debe leer el código y escribir un informe detallado sobre dónde están los agujeros (por ejemplo: "Aquí falta una cerradura" o "Esta puerta se abre sin llave").
  • El objetivo: Ver si el robot puede encontrar todos los problemas, no solo uno.

2. Nivel "Arquitecto" (Parchear)

  • La analogía: Ahora le dices al robot: "El edificio tiene un agujero. Repáralo sin derrumbar el resto de la casa".
  • La prueba: El robot debe editar el código para arreglar el error. Pero hay una trampa: si arregla el agujero pero rompe la ventana o la puerta principal, pierde.
  • El objetivo: Ver si sabe solucionar el problema sin crear nuevos desastres.

3. Nivel "Hacker" (Explotar)

  • La analogía: Este es el nivel más peligroso. Le das al robot una caja fuerte real con dinero dentro y le dices: "Intenta robar el dinero usando cualquier truco que encuentres".
  • La prueba: El robot interactúa con una versión simulada de la blockchain (la cadena de bloques). Tiene que pensar como un ladrón: encontrar la debilidad, crear un plan, ejecutarlo y sacar el dinero a su propia billetera virtual.
  • El objetivo: Medir el riesgo real. Si un robot puede robar el dinero en la simulación, significa que en el mundo real podría hacerlo también.

🏆 ¿Qué descubrieron?

Los resultados fueron una mezcla de "muy impresionante" y "muy preocupante":

  1. Los robots son peligrosamente buenos: Los modelos de IA más avanzados (como GPT-5 o Claude Opus) demostraron que pueden encontrar vulnerabilidades complejas y ejecutar robos completos de principio a fin en la simulación. En algunos casos, lograron vaciar las cajas fuertes digitales tal como lo haría un hacker humano experto.
  2. El problema de la "cobertura": A veces, un robot encuentra un agujero y lo explota, pero ignora otros dos agujeros en la misma casa. Esto es peligroso porque en la seguridad real, no basta con arreglar un problema; hay que arreglar todos.
  3. La ayuda importa: Cuando los investigadores dieron a los robots "pistas" (como decirles: "Mira el archivo X, hay un error allí"), los robots se volvieron mucho mejores. Esto sugiere que a veces el problema no es que el robot no sepa arreglar el código, sino que no sabe dónde buscar en un edificio tan grande.

💡 ¿Por qué es importante esto?

Piensa en esto como un ensayo general para el futuro:

  • El lado oscuro: Si un agente de IA malicioso (o un hacker que usa IA) puede robar miles de millones de dólares en segundos, el sistema financiero digital corre un riesgo enorme.
  • El lado luminoso: La misma tecnología puede ser usada por "robots guardián" para auditar contratos mucho más rápido y barato que los humanos, encontrando errores que los humanos pasarían por alto.

🚀 Conclusión

EVMbench nos dice que la IA ya tiene el poder de navegar por el mundo financiero digital, tanto para protegerlo como para destruirlo. No es ciencia ficción; es una realidad que ya está aquí.

El mensaje final es claro: Necesitamos medir y vigilar estas habilidades constantemente. Al igual que probamos los frenos de un coche antes de salir a la carretera, ahora debemos probar a la IA en escenarios de seguridad financiera para asegurarnos de que, cuando la usemos para proteger nuestro dinero, sea más fuerte que cualquier ladrón que intente usarla en su contra.