EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Il paper introduce EVM-QuestBench, un benchmark basato sull'esecuzione per valutare la generazione di script di transazioni in linguaggio naturale su catene compatibili con EVM, evidenziando attraverso una valutazione dinamica su 107 compiti e 20 modelli le significative lacune nella precisione delle azioni singole e nella sicurezza dei flussi di lavoro multi-step.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

Pubblicato Wed, 11 Ma
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale super intelligente, capace di scrivere codice per la blockchain (come se fosse un "maghetto" digitale). Il problema è che se questo assistente sbaglia anche solo di un millimetro, potresti perdere tutti i tuoi soldi in modo irreversibile. È come se dessi a un cuoco le istruzioni per preparare una torta, ma se sbaglia un grammo di sale, l'intera torta diventa velenosa.

Questo è il problema che risolve il paper EVM-QuestBench. Ecco la spiegazione semplice, con qualche analogia divertente:

1. Il Problema: "Sembra giusto, ma non funziona"

Fino ad oggi, per vedere se un'intelligenza artificiale (AI) sa scrivere codice, gli si facevano fare dei test basati sul "quante parole sono uguali" rispetto a una risposta perfetta.

  • L'analogia: È come correggere un compito scolastico guardando solo se lo studente ha scritto le stesse parole del libro di testo, senza controllare se la soluzione matematica funziona davvero. L'AI potrebbe scrivere un codice che sembra perfetto, ma se lo lanci, esplode.

Nel mondo delle criptovalute, un errore di un solo numero o di un indirizzo sbagliato significa perdere i fondi per sempre. Serviva un modo per testare se il codice funziona davvero, non solo se sembra bello.

2. La Soluzione: EVM-QuestBench (Il "Simulatore di Volo" per le Cripto)

Gli autori hanno creato un nuovo banco di prova chiamato EVM-QuestBench. Immaginalo come un simulatore di volo per piloti di aerei, ma invece di aerei, si tratta di transazioni finanziarie sulla blockchain.

Ecco come funziona:

  • Non è un quiz statico: Invece di dare all'AI la stessa domanda 100 volte (così potrebbe impararla a memoria), il simulatore cambia i numeri ogni volta.
    • Esempio: Se la domanda è "Manda 5 euro a Mario", il simulatore potrebbe trasformarla in "Manda 3,47 euro a Luigi" o "Manda 100 euro a Sofia". L'AI deve capire la logica, non memorizzare la risposta.
  • Due tipi di missioni:
    1. Missioni Atomiche (Semplici): "Manda 10 euro". L'AI deve fare una sola cosa perfetta.
    2. Missioni Composite (Complesse): "Compra un NFT, poi vendilo per guadagnare, e infine investi il guadagno". Qui l'AI deve pianificare una sequenza di passi. Se sbaglia il primo passo, tutto il resto fallisce.

3. Il Campo di Prova: Un "Gioco di Ruolo" Sicuro

Per testare queste AI, non usano la vera blockchain (dove si rischia di perdere soldi veri), ma una copia esatta e sicura (un "fork") della rete blockchain.

  • L'analogia: È come se l'AI giocasse a "Monopoli" su un tavolo di legno, ma con le regole reali del gioco. Se l'AI sbaglia e finisce in prigione, non perde soldi veri, ma il sistema segna che ha fallito.
  • Il Giudice: C'è un "arbitro" automatico che controlla dopo ogni azione: "Hai mandato i soldi al posto giusto? Il saldo è cambiato come previsto?". Se sì, punti. Se no, zero.

4. Cosa Hanno Scoperto? (I Risultati Sorprendenti)

Hanno fatto provare 20 diverse intelligenze artificiali a questo test. Ecco le scoperte più interessanti:

  • Non tutti sono uguali: Alcune AI sono bravissime a fare piccoli compiti singoli (come inviare un messaggio), ma quando devono pianificare una catena di eventi complessi (come un viaggio con 5 tappe), si perdono.
  • Il paradosso: Alcune intelligenze artificiali molto potenti hanno fallito miseramente nelle missioni complesse, mentre altre, meno famose, hanno eccelso.
  • La lezione: Essere bravi a scrivere codice non basta. Per la blockchain, serve essere bravi a pianificare e a non perdere il filo quando le cose si complicano.

In Sintesi

EVM-QuestBench è come una palestra di addestramento dove le intelligenze artificiali imparano a gestire i soldi digitali senza rischiare di bruciarsi le dita. Dimostra che per il futuro delle criptovalute, non ci servono solo AI che "scrivono bene", ma AI che "pensano bene" e sanno eseguire compiti complessi senza sbagliare un solo passaggio.

È un passo fondamentale per rendere l'automazione finanziaria sicura per tutti noi, trasformando l'AI da un "ragazzo promettente ma distratto" a un "pilota esperto".