EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Die Arbeit stellt EVM-QuestBench vor, ein ausführungsbasiertes Benchmark-System mit dynamischer Evaluierung, das die Lücke in der Sicherheits- und Genauigkeitsbewertung von Sprachmodellen bei der Generierung von Transaktionscodes für EVM-kompatible Blockchains schließt.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas chaotischen Assistenten (eine KI), dem du sagst: „Geh bitte auf die Bank, nimm 100 Euro ab und kauf mir dafür ein paar Aktien."

In der normalen Welt ist das einfach. Aber in der Welt der Blockchain (dem digitalen Geld-System) ist das extrem gefährlich. Wenn der Assistent sich nur einen Buchstaben im Adresscode verschreibt oder den falschen Wechselkurs nimmt, sind deine 100 Euro für immer weg. Es gibt keine „Rückgängig"-Taste.

Das ist genau das Problem, das die Forscher mit ihrem neuen Projekt EVM-QuestBench lösen wollen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Warum alte Tests nicht funktionieren

Bisher haben Forscher KI-Modelle getestet, indem sie ihnen Code gegeben haben und geprüft haben, ob der Text des Codes dem richtigen Text ähnelt (wie ein Lehrer, der nur die Rechtschreibung prüft, aber nicht den Inhalt).

  • Das Problem: Die KI könnte einen Code schreiben, der aussieht wie der richtige, aber wenn man ihn ausführt, löscht er versehentlich dein ganzes Konto.
  • Die Lösung: Man muss den Code nicht nur lesen, sondern ihn wirklich ausführen und schauen, ob das Ergebnis stimmt.

2. Die Lösung: EVM-QuestBench (Der „Fluchtfahrplan"-Test)

Die Forscher haben einen neuen Test entwickelt, der wie ein simulierter Fluchtfahrplan funktioniert.

  • Die Umgebung: Sie haben eine „Spiegel-Welt" (eine Kopie der echten Blockchain) erstellt. Hier können die KIs ihre Befehle ausprobieren, ohne echtes Geld zu riskieren.
  • Die Aufgaben: Es gibt zwei Arten von Aufgaben:
    1. Einzelne Schritte (Atomic): „Sende 5 Euro an Max." Das ist wie ein einfacher Befehl.
    2. Komplexe Abfolgen (Composite): „Sende erst 5 Euro an Max, dann tausche 10 Euro gegen Bitcoin, und kauf damit eine NFT-Karte." Das ist wie ein mehrstufiger Plan, bei dem Schritt 2 nur funktioniert, wenn Schritt 1 perfekt war.

3. Wie der Test abläuft (Das „Zufalls-Prinzip")

Stell dir vor, du testest einen Koch. Wenn du ihm immer nur sagst: „Koch Nudeln mit 500g Wasser", lernt er nur diese eine Aufgabe auswendig.
EVM-QuestBench macht etwas Cleveres:

  • Der Test wählt zufällige Zahlen aus. Einmal soll die KI 0,123 Euro senden, das nächste Mal 999,99 Euro.
  • Die KI muss also verstehen, was sie tut, und nicht nur eine festgelegte Antwort auswendig lernen.
  • Ein Schiedsrichter (der Validator) prüft am Ende: „Hat das Geld wirklich den Empfänger erreicht? Ist der Kontostand korrekt?"

4. Die Ergebnisse: Was haben sie herausgefunden?

Die Forscher haben 20 verschiedene KI-Modelle getestet. Das Ergebnis war überraschend und wichtig:

  • Einzelne vs. Komplexe Aufgaben: Viele KIs sind super darin, einen kleinen Befehl auszuführen (wie „Sende Geld"). Aber sobald es darum geht, einen komplexen Plan mit mehreren Schritten zu verfolgen, scheitern sie oft.
  • Die Analogie: Es ist wie bei einem Schüler, der Mathe-Aufgaben einzeln perfekt lösen kann, aber wenn er eine mehrstufige Geschichte lösen muss, bei der das Ergebnis von Schritt 1 für Schritt 2 wichtig ist, verliert er den Faden.
  • Die Gewinner: Nur die besten Modelle (wie Claude-Sonnet-4.5) schafften es, sowohl die kleinen als auch die großen, komplexen Aufgaben sicher zu meistern. Viele andere Modelle haben bei den komplexen Aufgaben fast null Punkte geholt, obwohl sie bei den einfachen gut waren.

5. Warum ist das wichtig?

Dieser Test ist wie ein Führerschein-Prüfstand für KI im Finanzbereich.
Bevor wir KI-Systemen erlauben, unser echtes Geld im Internet zu bewegen, müssen wir sicherstellen, dass sie nicht nur „gut klingen", sondern auch sicher handeln. EVM-QuestBench zeigt uns genau, welche KIs bereit sind und welche noch üben müssen, bevor sie mit echtem Geld hantieren dürfen.

Zusammenfassend:
Die Forscher haben einen neuen, sicheren Spielplatz gebaut, auf dem KIs lernen müssen, komplexe Finanz-Aufgaben zu lösen. Sie haben entdeckt, dass viele KIs zwar gute Einzelkämpfer sind, aber als Team (bei komplexen Abläufen) oft versagen. Das hilft uns, sicherere KI-Systeme für die Zukunft zu bauen.