Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que acabamos de publicar un informe muy importante sobre si los robots inteligentes (IA) están listos para ser los nuevos "policías" de los contratos digitales que manejan miles de millones de dólares en criptomonedas.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías para que se entienda perfectamente:

🕵️‍♂️ La Historia: ¿El Robot es el Nuevo Sherlock Holmes?

Hace un tiempo, un grupo de expertos (OpenAI, Paradigm y OtterSec) lanzó un examen llamado EVMbench. Fue como poner a 14 robots diferentes a buscar errores en un código de seguridad.

El resultado original: Dijeron que los robots encontraron casi la mitad de los errores y que podían "robar" (explotar) el 72% de los casos más fáciles.
La conclusión de ellos: "¡Genial! El único problema es encontrar el error. Una vez que lo encontramos, el robot puede arreglarlo o robarlo sin problemas. ¡El auditor humano pronto será obsoleto!"

Nosotros (los autores de este nuevo estudio) dijimos: "Espera un momento. Ese examen tenía trampa. Vamos a volver a hacerlo de verdad".

🔍 ¿Qué hicimos diferente? (Las dos trampas del examen anterior)

Imagina que quieres probar si un estudiante es bueno en matemáticas.

Trampa 1: El examen de memoria vs. el examen real.
- El examen viejo: Les dio a los robots problemas que ya habían salido en exámenes pasados (incluso antes de que los robots nacieran). Es como si les dieras las respuestas de memoria. ¡Obviamente sacaron buenas notas!
- Nuestro examen: Creamos un "Examen de Emergencia" con 22 casos reales de robos que ocurrieron después de que los robots se "graduaron". Nadie les había enseñado esto. Es como darle al estudiante un problema que nadie ha visto antes.
Trampa 2: El uniforme del equipo.
- El examen viejo: Cada robot usaba las herramientas que su propia empresa le daba (como si un jugador de fútbol usara siempre los zapatos de su marca favorita). No probaron si cambiar de zapatos cambiaba el resultado.
- Nuestro examen: Les dimos a los mismos robots diferentes "trajes" y herramientas (algunas hechas por las empresas, otras de código abierto) para ver si el robot era el héroe o si eran las herramientas las que hacían el trabajo.

📉 Los Resultados: La realidad golpea fuerte

Cuando hicimos el examen de verdad, la historia cambió drásticamente:

Los robots son inestables: A veces un robot es el mejor, y en el siguiente examen es el peor. No hay un "campeón" claro. Es como si un corredor ganara la maratón un día y luego tropezara en la siguiente carrera.
Encontrar vs. Robar (La gran diferencia):
- En el examen viejo (fácil), los robots decían: "¡Encontré el error! Y aquí está cómo robarlo".
- En nuestro examen real (difícil), los robots decían: "¡Sí, encontré el error! Pero... no sé cómo robarlo".
- El dato impactante: En los 22 casos reales de robos, ningún robot logró robar el dinero de principio a fin. Cero. Ni uno. Aunque algunos detectaron el error, no pudieron completar el ataque.
Las herramientas importan más de lo que creías: Cambiar las herramientas (el "scaffold") hizo que los robots mejoraran hasta un 5% más. Eso significa que a veces el robot no es el genio, sino que tiene un buen "asistente" (las herramientas).

🤖 ¿Qué significa esto para el futuro?

La idea de que "los robots van a reemplazar a los auditores humanos mañana" es falsa. Pero no significa que los robots sean inútiles.

Para los desarrolladores: Puedes usar al robot como un detector de humo. Es muy bueno para avisarte si dejaste la puerta abierta (errores básicos como olvidarse de poner una cerradura). Pero no confíes en él al 100%, porque se le escapan muchos incendios.
Para las empresas de seguridad (Auditores): La mejor estrategia es un equipo híbrido.
- El Robot: Es el "barrido rápido". Revisa miles de líneas de código en segundos y dice: "Oye, aquí hay algo raro, aquí hay otra cosa".
- El Humano: Es el "detective experto". Toma lo que el robot encontró, le da contexto, piensa en estrategias complejas y descarta las falsas alarmas.

💡 La Analogía Final: El Chef y el Ayudante

Imagina que quieres preparar un banquete de lujo (un contrato seguro).

El Robot es un ayudante muy rápido que puede pelar 100 patatas en un minuto y decirte: "¡Esta patata tiene un ojo malo!". Es excelente para lo repetitivo y rápido.
El Humano es el Chef. Sabe qué sabor va con qué, sabe cómo combinar los ingredientes para que no exploten en la boca, y sabe cuándo el robot se equivoca.

Conclusión: No vamos a despedir al Chef para poner solo al ayudante. Lo que vamos a hacer es darle al Chef un ayudante superpotente para que el Chef pueda cocinar mejor, más rápido y con menos errores.

En resumen: La IA es una herramienta increíblemente útil, pero aún no está lista para trabajar sola. Necesita a un humano al volante para tomar las decisiones finales y evitar desastres.

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

🕵️‍♂️ La Historia: ¿El Robot es el Nuevo Sherlock Holmes?

🔍 ¿Qué hicimos diferente? (Las dos trampas del examen anterior)

📉 Los Resultados: La realidad golpea fuerte

🤖 ¿Qué significa esto para el futuro?

💡 La Analogía Final: El Chef y el Ayudante

Resumen Técnico: Reevaluación de EVMBench

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

🕵️‍♂️ La Historia: ¿El Robot es el Nuevo Sherlock Holmes?

🔍 ¿Qué hicimos diferente? (Las dos trampas del examen anterior)

📉 Los Resultados: La realidad golpea fuerte

🤖 ¿Qué significa esto para el futuro?

💡 La Analogía Final: El Chef y el Ayudante

Resumen Técnico: Reevaluación de EVMBench

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities