EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas chaotischen Assistenten (eine KI), dem du sagst: „Geh bitte auf die Bank, nimm 100 Euro ab und kauf mir dafür ein paar Aktien."

In der normalen Welt ist das einfach. Aber in der Welt der Blockchain (dem digitalen Geld-System) ist das extrem gefährlich. Wenn der Assistent sich nur einen Buchstaben im Adresscode verschreibt oder den falschen Wechselkurs nimmt, sind deine 100 Euro für immer weg. Es gibt keine „Rückgängig"-Taste.

Das ist genau das Problem, das die Forscher mit ihrem neuen Projekt EVM-QuestBench lösen wollen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Warum alte Tests nicht funktionieren

Bisher haben Forscher KI-Modelle getestet, indem sie ihnen Code gegeben haben und geprüft haben, ob der Text des Codes dem richtigen Text ähnelt (wie ein Lehrer, der nur die Rechtschreibung prüft, aber nicht den Inhalt).

Das Problem: Die KI könnte einen Code schreiben, der aussieht wie der richtige, aber wenn man ihn ausführt, löscht er versehentlich dein ganzes Konto.
Die Lösung: Man muss den Code nicht nur lesen, sondern ihn wirklich ausführen und schauen, ob das Ergebnis stimmt.

2. Die Lösung: EVM-QuestBench (Der „Fluchtfahrplan"-Test)

Die Forscher haben einen neuen Test entwickelt, der wie ein simulierter Fluchtfahrplan funktioniert.

Die Umgebung: Sie haben eine „Spiegel-Welt" (eine Kopie der echten Blockchain) erstellt. Hier können die KIs ihre Befehle ausprobieren, ohne echtes Geld zu riskieren.
Die Aufgaben: Es gibt zwei Arten von Aufgaben:
1. Einzelne Schritte (Atomic): „Sende 5 Euro an Max." Das ist wie ein einfacher Befehl.
2. Komplexe Abfolgen (Composite): „Sende erst 5 Euro an Max, dann tausche 10 Euro gegen Bitcoin, und kauf damit eine NFT-Karte." Das ist wie ein mehrstufiger Plan, bei dem Schritt 2 nur funktioniert, wenn Schritt 1 perfekt war.

3. Wie der Test abläuft (Das „Zufalls-Prinzip")

Stell dir vor, du testest einen Koch. Wenn du ihm immer nur sagst: „Koch Nudeln mit 500g Wasser", lernt er nur diese eine Aufgabe auswendig.
EVM-QuestBench macht etwas Cleveres:

Der Test wählt zufällige Zahlen aus. Einmal soll die KI 0,123 Euro senden, das nächste Mal 999,99 Euro.
Die KI muss also verstehen, was sie tut, und nicht nur eine festgelegte Antwort auswendig lernen.
Ein Schiedsrichter (der Validator) prüft am Ende: „Hat das Geld wirklich den Empfänger erreicht? Ist der Kontostand korrekt?"

4. Die Ergebnisse: Was haben sie herausgefunden?

Die Forscher haben 20 verschiedene KI-Modelle getestet. Das Ergebnis war überraschend und wichtig:

Einzelne vs. Komplexe Aufgaben: Viele KIs sind super darin, einen kleinen Befehl auszuführen (wie „Sende Geld"). Aber sobald es darum geht, einen komplexen Plan mit mehreren Schritten zu verfolgen, scheitern sie oft.
Die Analogie: Es ist wie bei einem Schüler, der Mathe-Aufgaben einzeln perfekt lösen kann, aber wenn er eine mehrstufige Geschichte lösen muss, bei der das Ergebnis von Schritt 1 für Schritt 2 wichtig ist, verliert er den Faden.
Die Gewinner: Nur die besten Modelle (wie Claude-Sonnet-4.5) schafften es, sowohl die kleinen als auch die großen, komplexen Aufgaben sicher zu meistern. Viele andere Modelle haben bei den komplexen Aufgaben fast null Punkte geholt, obwohl sie bei den einfachen gut waren.

5. Warum ist das wichtig?

Dieser Test ist wie ein Führerschein-Prüfstand für KI im Finanzbereich.
Bevor wir KI-Systemen erlauben, unser echtes Geld im Internet zu bewegen, müssen wir sicherstellen, dass sie nicht nur „gut klingen", sondern auch sicher handeln. EVM-QuestBench zeigt uns genau, welche KIs bereit sind und welche noch üben müssen, bevor sie mit echtem Geld hantieren dürfen.

Zusammenfassend:
Die Forscher haben einen neuen, sicheren Spielplatz gebaut, auf dem KIs lernen müssen, komplexe Finanz-Aufgaben zu lösen. Sie haben entdeckt, dass viele KIs zwar gute Einzelkämpfer sind, aber als Team (bei komplexen Abläufen) oft versagen. Das hilft uns, sicherere KI-Systeme für die Zukunft zu bauen.

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

1. Das Problem: Warum alte Tests nicht funktionieren

2. Die Lösung: EVM-QuestBench (Der „Fluchtfahrplan"-Test)

3. Wie der Test abläuft (Das „Zufalls-Prinzip")

4. Die Ergebnisse: Was haben sie herausgefunden?

5. Warum ist das wichtig?

Titel: EVM-QuestBench: Ein ausführungsbasiertes Benchmark für die Generierung von Transaktionscode in natürlicher Sprache

1. Problemstellung

2. Methodik: EVM-QuestBench

3. Schlüsselbeiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

1. Das Problem: Warum alte Tests nicht funktionieren

2. Die Lösung: EVM-QuestBench (Der „Fluchtfahrplan"-Test)

3. Wie der Test abläuft (Das „Zufalls-Prinzip")

4. Die Ergebnisse: Was haben sie herausgefunden?

5. Warum ist das wichtig?

Titel: EVM-QuestBench: Ein ausführungsbasiertes Benchmark für die Generierung von Transaktionscode in natürlicher Sprache

1. Problemstellung

2. Methodik: EVM-QuestBench

3. Schlüsselbeiträge

4. Ergebnisse und Analyse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance