EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (IA) son como chefs geniales que pueden escribir recetas de cocina (código) increíblemente bien. Pero, en el mundo de las criptomonedas y la blockchain, no estamos hablando de cocinar un pastel que, si sale mal, solo se tira a la basura. Aquí, si la receta tiene un error de una sola letra, podrías perder todo tu dinero de forma irreversible.

El artículo que me has pasado presenta EVM-QuestBench, que es básicamente un campo de entrenamiento de alto riesgo para probar si estas IAs pueden cocinar recetas financieras seguras sin quemar la cocina.

Aquí te lo explico con analogías sencillas:

1. El Problema: "Cocinar" con Dinero Real

Antes, para probar si una IA escribía bien código, le daban un texto y veían si las palabras coincidían con una respuesta de ejemplo (como comparar dos recetas por si tienen las mismas palabras).

El fallo: Una IA podría escribir una receta que parece perfecta en papel, pero si intentas cocinarla, la sartén explota. En blockchain, una dirección de billetera mal escrita o un número de decimales incorrecto significa perder los fondos para siempre.
La solución: EVM-QuestBench no solo lee la receta; la cocina de verdad en una cocina de prueba (una blockchain simulada) para ver si el plato sale bien.

2. ¿Qué es EVM-QuestBench? (El Gimnasio de Entrenamiento)

Es un banco de pruebas (un "gimnasio") donde se le pide a la IA que convierta una orden en lenguaje natural (ej: "Envía 50 dólares a mi amigo Juan") en un código real que mueva dinero en la blockchain.

El sistema funciona así:

El Chef (La IA): Recibe la orden.
El Entrenador (El Sistema): Le da ingredientes aleatorios cada vez (no siempre son 50 dólares, a veces son 47.32, o 1000). Esto evita que la IA simplemente "memorice" respuestas.
La Prueba de Fuego: El sistema ejecuta el código en una blockchain de prueba. Si el dinero llega a la cuenta correcta y el saldo cambia como se pidió, ¡pasa la prueba! Si no, falla.

3. Dos Tipos de Retos: "El Salto" vs. "La Carrera de Obstáculos"

El banco de pruebas tiene dos tipos de tareas para medir diferentes habilidades:

Tareas Atómicas (El Salto de Altura):
- Analogía: Es como pedirle a la IA que haga un solo movimiento: "Salta sobre esta valla".
- Objetivo: Ver si la IA es precisa en un solo paso. ¿Puede escribir el código para enviar un token sin errores?
- Resultado: Muchas IAs son muy buenas aquí. Son como atletas que saltan alto perfectamente.
Tareas Compuestas (La Carrera de Obstáculos):
- Analogía: Ahora le pides: "Salta la valla, corre 10 metros, coge la llave, abre la puerta y luego salta la segunda valla".
- Objetivo: Ver si la IA puede planificar una secuencia. En blockchain, a veces primero tienes que "dar permiso" (aprobar) para gastar tus monedas antes de poder "intercambiarlas". Si la IA olvida el primer paso, todo falla.
- Resultado: ¡Aquí es donde muchas IAs tropiezan! Aunque sean geniales saltando una valla, se pierden en la carrera larga.

4. ¿Qué descubrieron? (Los Resultados)

Probaron a 20 modelos de IA diferentes (los "chefs" más famosos del mundo) y encontraron cosas curiosas:

La Brecha de Habilidades: Hay una gran diferencia entre ser bueno en un solo paso y ser bueno en una secuencia larga.
- Algunos modelos (como Claude-Sonnet-4.5) son como maratonistas: hacen todo el recorrido perfecto.
- Otros (como algunos modelos especializados en código) son como saltadores de altura: saltan una valla increíblemente bien, pero si les pides que corran una carrera de obstáculos, se caen o se olvidan de los pasos intermedios.
El Castigo por la Ineficiencia: Si la IA logra el objetivo pero da demasiados pasos de más (ej: intenta abrir la puerta 5 veces antes de acertar), el sistema le baja la puntuación. En blockchain, cada paso cuesta dinero (gas), así que la eficiencia importa.

5. ¿Por qué es importante esto?

Imagina que quieres contratar a un robot para que gestione tu dinero en el futuro.

Si solo le pruebas con "salta una valla" (tareas simples), podrías contratar a un robot que parece genial pero que, cuando le das una tarea compleja, pierde tu dinero.
EVM-QuestBench es el examen final que te dice: "¿Este robot puede manejar tu dinero en la vida real, con todos los pasos y riesgos que conlleva?".

En resumen:
Este paper nos dice que, aunque las IAs son muy inteligentes escribiendo código, aún necesitan mucho entrenamiento para entender cómo mover dinero de forma segura en el mundo real. No basta con que el código se vea bonito; tiene que funcionar, ser eficiente y no perder ni un centavo. Y para eso, necesitamos seguir probándolas en estos "gimnasios" de blockchain.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo EVM-QuestBench en español, estructurado según los puntos solicitados:

1. El Problema

El uso de Modelos de Lenguaje Grande (LLM) para generar código de transacciones en blockchain (específicamente en cadenas compatibles con EVM) introduce riesgos financieros críticos. A diferencia de la generación de código tradicional, un error menor en una transacción on-chain (como una dirección incorrecta, una unidad mal convertida o un paso omitido) puede provocar pérdidas irreversibles para los usuarios.

Los desafíos principales identificados son:

Falta de evaluación basada en ejecución: Las métricas existentes (como BLEU o CodeBLEU) se basan en la superposición léxica y pueden premiar salidas que parecen correctas pero fallan al ejecutarse o no cumplen restricciones funcionales.
Complejidad de las transacciones: Los LLM deben interpretar instrucciones en lenguaje natural, construir calldata correcto, manejar unidades específicas de la cadena (decimales de tokens), cumplir con restricciones de protocolos y gestionar dependencias entre múltiples pasos.
Brecha en benchmarks existentes: Herramientas como SWE-bench se centran en ingeniería de software general (Web2), mientras que benchmarks específicos de blockchain (como Solana Bench) a menudo no disocian la precisión de una sola transacción de la finalización de flujos de trabajo complejos (multi-paso).

2. Metodología

Los autores presentan EVM-QuestBench, un benchmark fundamentado en la ejecución para la generación de scripts de transacciones en cadenas compatibles con EVM.

Arquitectura y Diseño

Entorno de Ejecución: Se utiliza una bifurcación (fork) de la red principal de BNB Smart Chain (BSC) mediante Anvil. El sistema ejecuta scripts TypeScript en un entorno aislado con aislamiento de instantáneas (snapshot isolation) para garantizar que cada tarea comience desde un estado idéntico, evitando interferencias entre tareas.
Instanciación Dinámica: En lugar de casos de prueba fijos, el benchmark utiliza un enfoque dinámico:
- Se seleccionan plantillas de instrucciones de lenguaje natural.
- Los parámetros numéricos (cantidades, direcciones, porcentajes) se muestrean aleatoriamente dentro de intervalos predefinidos.
- Esto evita la memorización de patrones y prueba la robustez del razonamiento numérico del modelo.
Validadores: Se emplean clases validadoras específicas (ej. ERC20TransferValidator) que verifican el estado post-ejecución (balances, permisos, éxito de la transacción) comparándolo con los parámetros inyectados dinámicamente, en lugar de comparar con un código de referencia.

Estructura del Benchmark

El conjunto de datos contiene 107 tareas divididas en dos categorías:

Tareas Atómicas (62): Evalúan la precisión de una sola acción en la cadena (transferencias, aprobaciones, swaps simples).
Tareas Compuestas (45): Evalúan flujos de trabajo de múltiples pasos que requieren planificación, manejo de pre-requisitos (ej. aprobar antes de intercambiar) y propagación de parámetros.
- Puntuación Compuesta: Incluye un factor de decaimiento de eficiencia de pasos. Si el modelo utiliza más pasos de los óptimos ( $K_{act} > K_{opt}$ ), la puntuación se reduce proporcionalmente, penalizando la ineficiencia en la planificación.

Protocolo de Evaluación

Se evaluaron 20 modelos diferentes.
Cada modelo se ejecutó en 5 rondas independientes con parámetros muestreados de nuevo en cada ronda.
Interacción: Para tareas atómicas se usa generación de un solo disparo (single-shot). Para tareas compuestas, se usa un protocolo de interacción multi-turno donde el modelo primero planifica los sub-pasos y luego genera el código de ejecución iterativamente, recibiendo retroalimentación del entorno.

3. Contribuciones Clave

EVM-QuestBench: El primer benchmark fundamentado en la ejecución para la generación de scripts de transacciones en lenguaje natural en cadenas EVM, con divisiones claras entre tareas atómicas y compuestas.
Paradigma Atómico/Compuesto: Una arquitectura modular que reduce drásticamente los costos de desarrollo de nuevas tareas (solo se requiere definir un JSON y un validador), facilitando la expansión del benchmark.
Protocolo de Ejecución Robusto: Implementación de un ejecutor con aislamiento de instantáneas, una interfaz fija y puntuación basada en validadores de estado post-ejecución y recibos de transacciones.
Análisis de Asimetría de Capacidades: Un estudio exhaustivo de 20 modelos que revela que la precisión en acciones individuales no garantiza la capacidad de completar flujos de trabajo complejos, y viceversa.

4. Resultados

La evaluación de 20 modelos mostró una variabilidad sustancial y patrones interesantes:

Rendimiento General: Los mejores modelos (como Claude-Sonnet-4.5) alcanzaron una puntuación media total de 8,236 sobre 10,700, con baja varianza entre rondas.
Asimetría de Capacidades:
- Modelos orientados al flujo de trabajo: Algunos modelos (ej. DeepSeek-V3.2, Gemini-2.5-Flash) obtuvieron puntuaciones compuestas altas a pesar de puntuaciones atómicas más bajas, indicando una fuerte capacidad de planificación y secuenciación.
- Modelos orientados a la precisión: Otros (ej. Claude-Haiku-4.5) tuvieron un alto rendimiento en tareas atómicas pero fallaron en tareas compuestas, sugiriendo debilidades en el seguimiento de dependencias multi-paso.
- Fallos en modelos especializados en código: Varias versiones de Qwen3-Coder y Devstral obtuvieron puntuaciones cercanas a cero en tareas compuestas debido a errores recurrentes en la estructura del módulo TypeScript o importaciones faltantes en contextos multi-paso, a pesar de funcionar en tareas atómicas.
Eficiencia de Pasos: Los modelos líderes completaron las tareas compuestas con una eficiencia de pasos superior al 88%, mientras que los modelos inferiores promediaron más de 5.9 pasos por tarea (cuando el óptimo era ~3.3), lo que resultó en una penalización significativa de la puntuación.

5. Significado e Impacto

Seguridad en Web3: EVM-QuestBench establece un estándar crítico para evaluar la seguridad y fiabilidad de los LLM antes de su despliegue en entornos financieros reales, donde los errores son costosos.
Más allá de la superposición léxica: Demuestra que la evaluación basada en la ejecución es esencial para tareas de automatización blockchain, ya que la sintaxis correcta no garantiza la funcionalidad correcta.
Diagnóstico de Modelos: La división entre puntuaciones atómicas y compuestas permite diagnosticar deficiencias específicas en los modelos (planificación vs. precisión de detalles), guiando el desarrollo futuro de LLMs para agentes autónomos.
Escalabilidad: La arquitectura modular del benchmark permite su extensión a otras cadenas (los autores ya han aplicado la misma arquitectura a Solana) y a nuevos casos de uso, fomentando un ecosistema de evaluación más robusto para la automatización on-chain.

En conclusión, el trabajo subraya que la capacidad de un LLM para escribir código no es suficiente para la automatización blockchain; se requiere una comprensión profunda de la semántica de las transacciones, la gestión de estados y la planificación de flujos de trabajo complejos, aspectos que EVM-QuestBench mide de manera efectiva.