EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

El artículo presenta EVM-QuestBench, un nuevo benchmark basado en la ejecución dinámica para evaluar la generación de código de transacciones en lenguaje natural en cadenas compatibles con EVM, destacando la importancia de la precisión de ejecución y la seguridad para evitar pérdidas irreversibles.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (IA) son como chefs geniales que pueden escribir recetas de cocina (código) increíblemente bien. Pero, en el mundo de las criptomonedas y la blockchain, no estamos hablando de cocinar un pastel que, si sale mal, solo se tira a la basura. Aquí, si la receta tiene un error de una sola letra, podrías perder todo tu dinero de forma irreversible.

El artículo que me has pasado presenta EVM-QuestBench, que es básicamente un campo de entrenamiento de alto riesgo para probar si estas IAs pueden cocinar recetas financieras seguras sin quemar la cocina.

Aquí te lo explico con analogías sencillas:

1. El Problema: "Cocinar" con Dinero Real

Antes, para probar si una IA escribía bien código, le daban un texto y veían si las palabras coincidían con una respuesta de ejemplo (como comparar dos recetas por si tienen las mismas palabras).

  • El fallo: Una IA podría escribir una receta que parece perfecta en papel, pero si intentas cocinarla, la sartén explota. En blockchain, una dirección de billetera mal escrita o un número de decimales incorrecto significa perder los fondos para siempre.
  • La solución: EVM-QuestBench no solo lee la receta; la cocina de verdad en una cocina de prueba (una blockchain simulada) para ver si el plato sale bien.

2. ¿Qué es EVM-QuestBench? (El Gimnasio de Entrenamiento)

Es un banco de pruebas (un "gimnasio") donde se le pide a la IA que convierta una orden en lenguaje natural (ej: "Envía 50 dólares a mi amigo Juan") en un código real que mueva dinero en la blockchain.

El sistema funciona así:

  • El Chef (La IA): Recibe la orden.
  • El Entrenador (El Sistema): Le da ingredientes aleatorios cada vez (no siempre son 50 dólares, a veces son 47.32, o 1000). Esto evita que la IA simplemente "memorice" respuestas.
  • La Prueba de Fuego: El sistema ejecuta el código en una blockchain de prueba. Si el dinero llega a la cuenta correcta y el saldo cambia como se pidió, ¡pasa la prueba! Si no, falla.

3. Dos Tipos de Retos: "El Salto" vs. "La Carrera de Obstáculos"

El banco de pruebas tiene dos tipos de tareas para medir diferentes habilidades:

  • Tareas Atómicas (El Salto de Altura):

    • Analogía: Es como pedirle a la IA que haga un solo movimiento: "Salta sobre esta valla".
    • Objetivo: Ver si la IA es precisa en un solo paso. ¿Puede escribir el código para enviar un token sin errores?
    • Resultado: Muchas IAs son muy buenas aquí. Son como atletas que saltan alto perfectamente.
  • Tareas Compuestas (La Carrera de Obstáculos):

    • Analogía: Ahora le pides: "Salta la valla, corre 10 metros, coge la llave, abre la puerta y luego salta la segunda valla".
    • Objetivo: Ver si la IA puede planificar una secuencia. En blockchain, a veces primero tienes que "dar permiso" (aprobar) para gastar tus monedas antes de poder "intercambiarlas". Si la IA olvida el primer paso, todo falla.
    • Resultado: ¡Aquí es donde muchas IAs tropiezan! Aunque sean geniales saltando una valla, se pierden en la carrera larga.

4. ¿Qué descubrieron? (Los Resultados)

Probaron a 20 modelos de IA diferentes (los "chefs" más famosos del mundo) y encontraron cosas curiosas:

  • La Brecha de Habilidades: Hay una gran diferencia entre ser bueno en un solo paso y ser bueno en una secuencia larga.
    • Algunos modelos (como Claude-Sonnet-4.5) son como maratonistas: hacen todo el recorrido perfecto.
    • Otros (como algunos modelos especializados en código) son como saltadores de altura: saltan una valla increíblemente bien, pero si les pides que corran una carrera de obstáculos, se caen o se olvidan de los pasos intermedios.
  • El Castigo por la Ineficiencia: Si la IA logra el objetivo pero da demasiados pasos de más (ej: intenta abrir la puerta 5 veces antes de acertar), el sistema le baja la puntuación. En blockchain, cada paso cuesta dinero (gas), así que la eficiencia importa.

5. ¿Por qué es importante esto?

Imagina que quieres contratar a un robot para que gestione tu dinero en el futuro.

  • Si solo le pruebas con "salta una valla" (tareas simples), podrías contratar a un robot que parece genial pero que, cuando le das una tarea compleja, pierde tu dinero.
  • EVM-QuestBench es el examen final que te dice: "¿Este robot puede manejar tu dinero en la vida real, con todos los pasos y riesgos que conlleva?".

En resumen:
Este paper nos dice que, aunque las IAs son muy inteligentes escribiendo código, aún necesitan mucho entrenamiento para entender cómo mover dinero de forma segura en el mundo real. No basta con que el código se vea bonito; tiene que funcionar, ser eficiente y no perder ni un centavo. Y para eso, necesitamos seguir probándolas en estos "gimnasios" de blockchain.