EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale super intelligente, capace di scrivere codice per la blockchain (come se fosse un "maghetto" digitale). Il problema è che se questo assistente sbaglia anche solo di un millimetro, potresti perdere tutti i tuoi soldi in modo irreversibile. È come se dessi a un cuoco le istruzioni per preparare una torta, ma se sbaglia un grammo di sale, l'intera torta diventa velenosa.

Questo è il problema che risolve il paper EVM-QuestBench. Ecco la spiegazione semplice, con qualche analogia divertente:

1. Il Problema: "Sembra giusto, ma non funziona"

Fino ad oggi, per vedere se un'intelligenza artificiale (AI) sa scrivere codice, gli si facevano fare dei test basati sul "quante parole sono uguali" rispetto a una risposta perfetta.

L'analogia: È come correggere un compito scolastico guardando solo se lo studente ha scritto le stesse parole del libro di testo, senza controllare se la soluzione matematica funziona davvero. L'AI potrebbe scrivere un codice che sembra perfetto, ma se lo lanci, esplode.

Nel mondo delle criptovalute, un errore di un solo numero o di un indirizzo sbagliato significa perdere i fondi per sempre. Serviva un modo per testare se il codice funziona davvero, non solo se sembra bello.

2. La Soluzione: EVM-QuestBench (Il "Simulatore di Volo" per le Cripto)

Gli autori hanno creato un nuovo banco di prova chiamato EVM-QuestBench. Immaginalo come un simulatore di volo per piloti di aerei, ma invece di aerei, si tratta di transazioni finanziarie sulla blockchain.

Ecco come funziona:

Non è un quiz statico: Invece di dare all'AI la stessa domanda 100 volte (così potrebbe impararla a memoria), il simulatore cambia i numeri ogni volta.
- Esempio: Se la domanda è "Manda 5 euro a Mario", il simulatore potrebbe trasformarla in "Manda 3,47 euro a Luigi" o "Manda 100 euro a Sofia". L'AI deve capire la logica, non memorizzare la risposta.
Due tipi di missioni:
1. Missioni Atomiche (Semplici): "Manda 10 euro". L'AI deve fare una sola cosa perfetta.
2. Missioni Composite (Complesse): "Compra un NFT, poi vendilo per guadagnare, e infine investi il guadagno". Qui l'AI deve pianificare una sequenza di passi. Se sbaglia il primo passo, tutto il resto fallisce.

3. Il Campo di Prova: Un "Gioco di Ruolo" Sicuro

Per testare queste AI, non usano la vera blockchain (dove si rischia di perdere soldi veri), ma una copia esatta e sicura (un "fork") della rete blockchain.

L'analogia: È come se l'AI giocasse a "Monopoli" su un tavolo di legno, ma con le regole reali del gioco. Se l'AI sbaglia e finisce in prigione, non perde soldi veri, ma il sistema segna che ha fallito.
Il Giudice: C'è un "arbitro" automatico che controlla dopo ogni azione: "Hai mandato i soldi al posto giusto? Il saldo è cambiato come previsto?". Se sì, punti. Se no, zero.

4. Cosa Hanno Scoperto? (I Risultati Sorprendenti)

Hanno fatto provare 20 diverse intelligenze artificiali a questo test. Ecco le scoperte più interessanti:

Non tutti sono uguali: Alcune AI sono bravissime a fare piccoli compiti singoli (come inviare un messaggio), ma quando devono pianificare una catena di eventi complessi (come un viaggio con 5 tappe), si perdono.
Il paradosso: Alcune intelligenze artificiali molto potenti hanno fallito miseramente nelle missioni complesse, mentre altre, meno famose, hanno eccelso.
La lezione: Essere bravi a scrivere codice non basta. Per la blockchain, serve essere bravi a pianificare e a non perdere il filo quando le cose si complicano.

In Sintesi

EVM-QuestBench è come una palestra di addestramento dove le intelligenze artificiali imparano a gestire i soldi digitali senza rischiare di bruciarsi le dita. Dimostra che per il futuro delle criptovalute, non ci servono solo AI che "scrivono bene", ma AI che "pensano bene" e sanno eseguire compiti complessi senza sbagliare un solo passaggio.

È un passo fondamentale per rendere l'automazione finanziaria sicura per tutti noi, trasformando l'AI da un "ragazzo promettente ma distratto" a un "pilota esperto".

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper EVM-QuestBench in italiano, strutturata secondo le sezioni richieste.

1. Il Problema

L'uso dei Modelli Linguistici di Grande Dimensione (LLM) per la generazione di codice e transazioni blockchain sta diventando sempre più comune. Tuttavia, nel contesto delle transazioni on-chain, anche errori minimi (come un indirizzo errato, un'unità di misura sbagliata o una scadenza impropria) possono causare perdite finanziarie irreversibili per gli utenti.

Le valutazioni esistenti presentano diverse limitazioni critiche:

Mancanza di accuratezza esecutiva: Molte metriche si basano sulla sovrapposizione lessicale (es. BLEU, CodeBLEU) tra il codice generato e un riferimento, premiando output che sembrano corretti ma falliscono nell'esecuzione reale.
Assenza di sicurezza e vincoli specifici: I benchmark generali (come SWE-bench) o quelli specifici per blockchain (come Solana Bench) spesso non valutano la capacità di gestire stati condivisi mutabili, prerequisiti di protocollo, condizioni di revert e la corretta gestione delle unità di misura (es. decimali dei token).
Gap tra azioni singole e flussi di lavoro: Non esiste una valutazione unificata che distingua tra la precisione in un'azione singola e la capacità di completare flussi di lavoro complessi a più passaggi.

2. Metodologia: EVM-QuestBench

Gli autori introducono EVM-QuestBench, un benchmark execution-grounded (basato sull'esecuzione) per la generazione di script di transazioni in linguaggio naturale su catene compatibili con l'EVM (Ethereum Virtual Machine).

Architettura e Design

Ambiente di Esecuzione: Le valutazioni avvengono su una fork della mainnet di BNB Smart Chain (BSC) utilizzando Anvil. Ogni task viene eseguito in un ambiente isolato tramite snapshot, garantendo che ogni task inizi dallo stesso stato iniziale e prevenendo interferenze tra task.
Istruzioni Dinamiche: Le istruzioni non sono fisse. Vengono campionate da pool di template e i parametri numerici (importi, indirizzi, percentuali) sono generati dinamicamente da intervalli predefiniti. Questo impedisce la memorizzazione (memorization) dei dati di addestramento e testa la robustezza del ragionamento numerico.
Validazione: Invece di confrontare il codice con un riferimento, il sistema esegue lo script generato e utilizza validatori per verificare lo stato post-esecuzione (es. saldi dei wallet, successo della transazione, permessi approvati).

Struttura del Benchmark

Il benchmark contiene 107 task divisi in due split:

Task Atomici (62): Testano la precisione di un'azione singola on-chain (es. trasferimenti, swap, approvazioni).
Task Compositi (45): Testano flussi di lavoro multi-step che richiedono pianificazione, gestione dei prerequisiti (es. approvazione prima dello swap) e propagazione coerente dei parametri.
- Scoring Composito: Include un fattore di decadimento dell'efficienza dei passaggi. Se il modello utilizza più passaggi del necessario ( $K_{act} > K_{opt}$ ), il punteggio viene penalizzato proporzionalmente.

Protocollo di Valutazione

Input: Istruzione in linguaggio naturale + contesto (mappa indirizzi contratti, RPC).
Output: Un modulo TypeScript che costruisce i payload delle transazioni non firmate.
Esecuzione: Un runner firma e invia le transazioni sulla fork.
Punteggio: Basato su validatori che controllano: successo della transazione, correttezza dell'indirizzo, firma della funzione e verifica dello stato (con tolleranze per slippage o arrotondamenti).

3. Contributi Chiave

Primo Benchmark Esecutivo per Transazioni EVM: Fornisce un protocollo standardizzato per valutare la generazione di script di transazioni da linguaggio naturale, focalizzandosi sull'esecuzione reale e non solo sulla sintassi.
Paradigma Atomico/Composito: Introduce una distinzione fondamentale che rivela asimmetrie nelle capacità dei modelli, permettendo di diagnosticare se un modello fallisce nella precisione di base o nella pianificazione complessa.
Architettura Modulare e Scalabile: La struttura basata su JSON e validatori Python permette di aggiungere nuovi task con sforzo ingegneristico minimo, facilitando l'espansione futura.
Valutazione Statistica Rigorosa: Esecuzione di 5 round indipendenti per 20 modelli, fornendo intervalli di confidenza e analisi della consistenza del ranking.

4. Risultati

Gli autori hanno valutato 20 modelli (inclusi GPT-5, Claude-Sonnet-4.5, Gemini, DeepSeek, Qwen, ecc.).

Performance Generale: I migliori modelli (es. Claude-Sonnet-4.5) hanno raggiunto un punteggio medio totale di 8.236 su 10.700, con una bassa varianza (CV = 2.1%), dimostrando la robustezza del benchmark.
Asimmetria delle Capacità: È emersa una chiara divergenza tra le prestazioni atomiche e quelle composite:
- Alcuni modelli eccellono nei task compositi (pianificazione) ma hanno punteggi atomici più bassi.
- Altri modelli sono precisi nelle azioni singole ma falliscono nei flussi di lavoro multi-step a causa di errori di pianificazione o dipendenze.
- Modelli specializzati in codice (es. alcune varianti di Qwen3-Coder) hanno ottenuto punteggi vicini allo zero nei task compositi a causa di errori ricorrenti nell'interfaccia (es. import mancanti, struttura modulare errata) durante l'iterazione multi-step.
Efficienza dei Passaggi: I modelli top completano i task compositi con un'efficienza di circa l'88%, mentre i modelli inferiori tendono a richiedere molti più passaggi o falliscono sistematicamente.

5. Significato e Implicazioni

EVM-QuestBench rappresenta un passo fondamentale verso l'automazione sicura delle transazioni blockchain basata su AI.

Sicurezza Finanziaria: Sposta il focus dalla "somiglianza del codice" alla "correttezza funzionale", identificando modelli che possono essere utilizzati in produzione senza causare perdite di fondi.
Diagnosi dei Modelli: La separazione tra task atomici e compositi aiuta i ricercatori a capire se un modello ha bisogno di miglioramenti nel ragionamento logico sequenziale o nella precisione sintattica di base.
Portabilità: L'architettura è stata già dimostrata portabile su altre blockchain (es. Solana), suggerendo che questo approccio può diventare lo standard per la valutazione degli agenti AI nel settore Web3.
Sfide Future: Il lavoro evidenzia la necessità di migliorare la stabilità dell'esecuzione (RPC, fork) e di incorporare controlli di sicurezza più ricchi per gli intenti delle transazioni.

In sintesi, EVM-QuestBench fornisce un terreno di prova critico per garantire che gli LLM siano pronti a gestire compiti ad alto rischio finanziario nell'ecosistema blockchain.