EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat ongeduldige assistent hebt die alles kan doen: van het kopen van een huis tot het regelen van een complexe reis. Je geeft hem een opdracht in gewone taal: "Koop een huis in Amsterdam en regel de sleuteloverdracht."

In de digitale wereld van blockchain (zoals Ethereum of Binance Smart Chain) is deze assistent een AI-model. Het probleem is: als deze AI een klein foutje maakt – bijvoorbeeld een verkeerd adresje of een verkeerd bedrag – is je geld voor altijd weg. Er is geen "ongedaan maken"-knop.

Dit is waar het paper EVM-QuestBench om de hoek komt kijken. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Woonkamer-test" vs. De "Echte Wereld"

Vroeger testten we of AI goed code schreef door te kijken of de tekst op het papier leek op het juiste antwoord (zoals een leraar die alleen kijkt of je spelling goed is).

De oude manier: De AI schrijft een recept voor een taart. De leraar kijkt: "Klinkt goed, woorden kloppen." Maar als je het in de oven doet, is het een baksteen.
Het nieuwe probleem: In blockchain gaat het niet om een taart, maar om geld. Als de AI een verkeerd getal gebruikt, is je geld weg. Bestaande tests keken vaak niet of de taart echt in de oven paste.

2. De Oplossing: EVM-QuestBench (De "Simulatie-Speelplaats")

De auteurs hebben een nieuwe testbaan gebouwd, genaamd EVM-QuestBench.

De Vergelijking: Stel je voor dat je een vliegsimulator bouwt voor piloten. Je laat de AI niet alleen een vluchtplan op papier schrijven, maar je laat het echt vliegen in een veilige, gesimuleerde wereld.
Hoe het werkt:
1. Je geeft de AI een opdracht in gewone taal: "Verstuur 0,5 ETH naar mijn vriend en wissel de rest om naar USDT."
2. De AI schrijft de code.
3. Een robot (de "Runner") voert deze code echt uit op een gekopieerde versie van de blockchain (een "fork").
4. Een scheidsrechter (de "Validator") kijkt: "Is het geld echt overgekomen? Is het bedrag juist? Is er geen fout opgetreden?"

3. De Twee Soorten Tests: "Eén Stap" vs. "De Grote Reis"

De testbaan heeft twee soorten uitdagingen, net zoals een sportwedstrijd:

De "Atomaire" taken (De Sprint):
- Voorbeeld: "Verstuur 10 euro naar Jan."
- Dit is een simpele, één-staps actie. De AI moet alleen het juiste adres en bedrag invullen.
- Analogie: Het is als het goed invullen van een enveloppe. Als je het adres verkeerd schrijft, komt de brief niet aan.
De "Composiete" taken (De Meerdaagse Tocht):
- Voorbeeld: "Koop eerst een ticket, wacht tot het bevestigd is, en boek dan pas een hotel."
- Dit is een reeks stappen die op elkaar moeten bouwen. Als stap 1 faalt, mag stap 2 niet beginnen.
- Analogie: Het is als het regelen van een huwelijk. Je moet eerst de kerk boeken, dan de catering, en pas daarna de uitnodigingen sturen. Als je de catering boekt voordat je de kerk hebt, is het een ramp.
- De "Efficiëntie-boete": Als de AI te veel onnodige stappen doet (bijvoorbeeld: "Ik check even of het geld er is", "Ik check het nog eens", "Ik check het weer"), krijgt hij strafpunten. Net als bij een raceauto: wie te veel bochten maakt, verliest tijd.

4. Wat hebben ze ontdekt? (De Uitslagen)

Ze hebben 20 verschillende AI-modellen getest. De resultaten waren verrassend:

De "Precisie-Experts": Sommige AI's zijn fantastisch in simpele taken (de sprint). Ze schrijven het adres perfect op. Maar zodra het om een complexe reis gaat (meer stappen), raken ze in de war en maken ze fouten.
De "Strategen": Andere AI's zijn misschien niet perfect in elke kleine letter, maar ze zijn goed in het plannen van de hele reis. Ze weten welke stappen in welke volgorde moeten komen.
De "Code-specialisten": Sommige modellen die bekend staan om hun programmeervaardigheid, faalden volledig op de complexe taken. Ze schreven mooie code, maar de code werkte niet in de echte wereld (zoals een auto die er prachtig uitziet, maar geen motor heeft).

De belangrijkste les: Het is heel moeilijk om een AI te vinden die alles goed doet: zowel de kleine details als het grote plaatje.

5. Waarom is dit belangrijk?

Vroeger dachten we: "Als de AI goed code schrijft, is het veilig."
Dit paper zegt: "Nee, dat is niet genoeg."

In de blockchain-wereld is het niet genoeg om alleen te kijken of de code er mooi uitziet. Je moet kijken of het werkt in de echte wereld. EVM-QuestBench is de eerste test die dit echt doet door de AI te laten "spelen" in een veilige, maar echte blockchain-omgeving.

Samenvattend:
Stel je voor dat je een nieuwe chauffeur wilt aannemen voor een dure vrachtwagen.

De oude test: Je vroeg de chauffeur om een route op papier te tekenen.
Deze nieuwe test (EVM-QuestBench): Je laat de chauffeur de vrachtwagen echt rijden over een parcours met hindernissen. Als hij een verkeerde bocht neemt of de remmen niet op tijd gebruikt, ziet de test dat direct.

Dit helpt ontwikkelaars om de veiligste en slimste AI's te kiezen voor het beheer van geld en transacties, zodat jij niet je spaargeld kwijtraakt aan een slordige computer.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation", vertaald en samengevat in het Nederlands.

1. Het Probleem

Grote Taalmodellen (LLM's) worden steeds vaker ingezet voor codegeneratie en het automatiseren van blockchain-transacties. Echter, in on-chain scenario's kunnen zelfs kleine fouten (zoals een onjuist adres, een verkeerde eenheid of een foutieve deadline) leiden tot irreversibele financiële verliezen.

Bestaande benchmarks voor codegeneratie hebben twee belangrijke tekortkomingen in deze context:

Gebrek aan uitvoeringsnauwkeurigheid: Veel evaluaties vertrouwen op lexicale overlap-metrics (zoals BLEU of CodeBLEU). Deze metrics belonen output die er visueel op lijkt, maar die functioneel onwerkbaar is of niet voldoet aan strikte protocolbeperkingen.
Gebrek aan veiligheid en dynamiek: Blockchain-interacties vereisen omgang met gedeelde, mutabele staat, strikte eenheidsconversies (bijv. wei vs. ether) en protocolafhankelijke pre-requisites. Bestaande benchmarks (zoals SWE-bench of Solana Bench) behandelen deze specifieke risico's en de noodzaak van uitvoeringsgebaseerde validatie vaak niet adequaat.

2. Methodologie: EVM-QuestBench

De auteurs introduceren EVM-QuestBench, een benchmark die specifiek is ontworpen voor het genereren van transactiescripts op EVM-gecompatibele ketens (geïmplementeerd op BNB Smart Chain). De kern van de methode is uitvoeringsgebaseerde evaluatie (execution-grounded evaluation).

Architectuur en Werkingsprincipe

Dynamische Instantiatie: Taken worden niet met vaste waarden getest. In plaats daarvan worden instructies gegenereerd uit sjablonen, en worden numerieke parameters (bedragen, tokenhoeveelheden) willekeurig bemonsterd binnen vooraf gedefinieerde intervallen. Dit voorkomt dat modellen de testcases uit het trainingsdata "leren" (memoriseren) en test hun numerieke redeneervermogen.
Modulaire Opbouw: De benchmark bestaat uit twee splits:
1. Atomic Tasks (62 taken): Testen de precisie van een enkele on-chain actie (bijv. een token transfer of swap).
2. Composite Tasks (45 taken): Testen multi-stap workflows die planning, pre-requisites (zoals goedkeuringen) en parameter-overdracht vereisen (bijv. approve → swap → stake).
Evaluatie-omgeving:
- Scripts worden uitgevoerd in een forked EVM-omgeving (Anvil op BSC mainnet) met snapshot-isolatie. Dit zorgt ervoor dat elke taak start vanuit een identieke staat, wat cross-task interferentie voorkomt.
- Een "Runner" ondertekent en executeert de gegenereerde TypeScript-modules.
- Validatoren: In plaats van het vergelijken met referentiecode, controleren gespecialiseerde validatoren de post-execution state. Ze verifieren of de transactie slaagde, of de contractadressen correct waren, en of de balansveranderingen overeenkwamen met de gesamplede parameters (met een kleine tolerantie voor slippage).

Scoren

Atomic Scoring: Gebaseerd op gewogen checks (transactiesucces, adrescorrectheid, signatuur, staatverandering).
Composite Scoring: Gebaseerd op het eindresultaat, maar met een stap-efficiëntie decay. Als een model meer stappen neemt dan de optimale hoeveelheid ( $K_{opt}$ ), wordt de score verlaagd volgens de formule: $S = S_{base} \cdot \min(1, \frac{K_{opt}}{K_{act}})$ . Dit straft inefficiënte planning af.

3. Belangrijkste Bijdragen

Eerste Uitvoeringsgebaseerde Benchmark voor EVM: Een benchmark die de volledige cyclus van natuurlijke taal naar uitvoerbare transactie test, met focus op veiligheid en functionaliteit in plaats van tekstuele overeenkomst.
Atomische/Composiete Paradigma: Een schaalbaar framework dat de ontwikkeling van nieuwe taken sterk vereenvoudigt (alleen een JSON-definitie en een validator zijn nodig), terwijl het tegelijkertijd het onderscheid tussen enkelvoudige precisie en complexe workflow-beheer blootlegt.
Robuuste Evaluatie-protocol: Een protocol met snapshot-isolatie, dynamische parameterbemonstering en validator-gedreven scoring, wat zorgt voor statistisch significante resultaten.
Uitgebreide Evaluatie: Evaluatie van 20 modellen over 5 onafhankelijke rondes, inclusief statistische analyse (betrouwbaarheidsintervallen) en een gedetailleerde analyse van de prestatieverschillen tussen enkelvoudige en meervoudige taken.

4. Resultaten

De auteurs hebben 20 modellen (waaronder GPT-5, Claude-Sonnet-4.5, DeepSeek-V3.2, en diverse Qwen-varianten) getest.

Algemene Prestaties: Er zijn aanzienlijke prestatieverschillen. De top-modellen (zoals Claude-Sonnet-4.5) behalen een gemiddelde totaalscore van ~8.236 punten (van 10.700).
Asymmetrie in Capaciteiten: De resultaten onthullen een persistente kloof tussen enkelvoudige precisie (Atomic) en workflow voltooiing (Composite):
- Sommige modellen (bijv. DeepSeek-V3.2, Gemini-2.5-Flash) scoren hoog op Composite taken ondanks lagere Atomic scores, wat wijst op sterke planningscapaciteiten.
- Andere modellen (bijv. Claude-Haiku-4.5, Devstral-2512) scoren goed op Atomic taken maar zakken in op Composite taken, wat aangeeft dat ze moeite hebben met multi-stap afhankelijkheden.
- Code-specialistische modellen (zoals Qwen3-Coder varianten) presteren vaak slecht op Composite taken (soms <1 succesvolle taak) door herhaalde interface-fouten in complexe workflows, ondanks redelijke Atomic prestaties.
Stabiliteit: De scores zijn robuust; de meeste modellen hebben een variatiecoëfficiënt (CV%) onder de 9%, wat aangeeft dat de dynamische parameterbemonstering en de uitvoering consistent zijn.

5. Betekenis en Toekomstperspectief

EVM-QuestBench biedt een gestandaardiseerd protocol om het gedrag van LLM's in on-chain automatisering te bestuderen. Het paper benadrukt dat het genereren van code voor blockchain niet alleen gaat om syntaxis, maar om het correct interpreteren van intentie, het handhaven van protocolregels en het managen van complexe, afhankelijke workflows.

De bevindingen dat modellen vaak falen in multi-stap workflows ondanks goede enkelvoudige prestaties, onderstrepen de noodzaak van benchmarks die specifiek gericht zijn op planning en sequentiële redenering in risicovolle omgevingen. De auteurs plannen uitbreidingen naar andere EVM-ketens en het integreren van strengere veiligheidscontroles voor transactie-intenties en bijwerkingen.

Conclusie: EVM-QuestBench is een cruciale stap voorbij tekstuele evaluaties naar functionele, uitvoeringsgebaseerde validatie, essentieel voor het veilig inzetten van AI in de Web3-ecosystemen.

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

1. Het Probleem: De "Woonkamer-test" vs. De "Echte Wereld"

2. De Oplossing: EVM-QuestBench (De "Simulatie-Speelplaats")

3. De Twee Soorten Tests: "Eén Stap" vs. "De Grote Reis"

4. Wat hebben ze ontdekt? (De Uitslagen)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: EVM-QuestBench

Architectuur en Werkingsprincipe

Scoren

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance