Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Each language version is independently generated for its own context, not a direct translation.

Titel: Sind die KI-Auditoren wirklich schlau? Eine neue Studie entlarvt den Hype

Stellen Sie sich vor, Smart Contracts (die digitalen Verträge auf der Blockchain) sind wie hochsichere Tresore in einer Bank. Um diese Tresore zu testen, haben Forscher ein riesiges Trainingssystem namens EVMbench entwickelt. Die ursprüngliche Studie von OpenAI und anderen sagte: „Unsere KI-Agenten sind genial! Sie finden fast die Hälfte aller Sicherheitslücken und können 72 % der gefundenen Lücken auch tatsächlich ausnutzen, um Geld zu stehlen."

Das hat die ganze Welt aufgeregt. Die Medien sagten: „Die KI wird bald alle menschlichen Sicherheitsprüfer ersetzen!"

Aber ein Team von Forschern (Peng, Wu und Zhou) hat sich gedacht: „Moment mal, ist das Training vielleicht zu einfach?" Sie haben die Prüfung neu aufgesetzt und kamen zu einem ganz anderen Ergebnis. Hier ist die Geschichte, einfach erklärt:

1. Das Problem: Der „Lehrbuch-Trick"

Das ursprüngliche Training (EVMbench) war wie eine Prüfung, bei der die Schüler die Lösungen schon auswendig gelernt hatten.

Der Trick: Die KI-Modelle wurden mit alten Prüfungsfragen trainiert, die sie schon in ihren Trainingsdaten gesehen hatten. Es ist, als würde ein Schüler für eine Mathearbeit lernen, indem er die Lösungen der letzten 10 Jahre auswendig lernt. Wenn er dann die gleichen Fragen bekommt, ist er ein Genie. Aber wenn er eine neue Aufgabe bekommt, scheitert er.
Die neue Prüfung: Die neuen Forscher haben 22 echte, aktuelle Sicherheitskatastrophen genommen, die nach dem Erscheinen der KI-Modelle passiert sind. Die KI hatte diese Fälle noch nie gesehen. Das ist wie eine Prüfung mit völlig neuen Aufgaben, die niemand vorher kannte.

2. Die Ergebnisse: Von „Superheld" zu „Hilfskraft"

Als die KI auf diese neuen, echten Fälle angesetzt wurde, sah das Bild ganz anders aus:

Die Entdeckung: Die KI fand immer noch viele Fehler (ca. 65 %), aber sie war nicht so stabil wie gedacht. Mal war sie der Beste, mal der Schlechteste, je nachdem, welches Werkzeug sie benutzte.
Der Diebstahl (Exploitation): Das ist der wichtigste Punkt. In der alten Studie schaffte es die KI, fast 3/4 der gefundenen Lücken auch auszunutzen (Geld zu stehlen). In der neuen, echten Prüfung: 0 %. Keine einzige KI schaffte es, einen echten, komplexen Diebstahl von Anfang bis Ende durchzuführen.
- Die Metapher: Die KI ist wie ein Detektiv, der sehr gut darin ist, zu sagen: „Hier ist ein offenes Fenster!" (Fehler finden). Aber wenn es darum geht, durch das Fenster zu klettern, die Alarmanlage zu umgehen und den Safe zu knacken (den Fehler ausnutzen), bleibt sie ratlos stehen. Sie weiß, wo das Problem ist, aber sie hat nicht den Mut oder das Geschick, es wirklich zu lösen.

3. Das Werkzeug macht den Meister

Die Studie zeigte auch, dass das „Werkzeug" (das sogenannte Scaffold), mit dem die KI arbeitet, einen riesigen Unterschied macht.

Es ist wie ein Maler: Ein Maler mit einem billigen Pinsel (offene Software) kann manchmal besser malen als ein Maler mit dem teuersten, vom Hersteller empfohlenen Pinsel. Die ursprüngliche Studie hatte die Maler immer nur mit ihren eigenen, teuren Pinseln getestet. Die neue Studie hat gemischt: Maler mit verschiedenen Pinseln. Das Ergebnis? Der Pinsel war oft wichtiger als der Maler selbst.

4. Was bedeutet das für uns?

Die Nachricht ist nicht, dass KI nutzlos ist. Die Nachricht ist, dass wir sie nicht als „Allheilmittel" sehen sollten.

Für Entwickler: KI ist wie ein sehr aufmerksamer Assistent. Bevor Sie Ihren Tresor öffnen, lassen Sie den Assistenten einmal schnell durch das Gebäude laufen. Er findet die offensichtlichen Dinge: „Hey, die Tür steht offen!" oder „Der Schlüssel liegt auf dem Tisch!". Das ist super hilfreich. Aber vertrauen Sie nicht blind darauf, dass er alles findet.
Für Sicherheitsfirmen: Die Zukunft ist nicht „KI gegen Mensch", sondern KI mit Mensch.
- Die KI macht die „schwere Arbeit": Sie scannt riesige Code-Mengen und findet die 100 offensichtlichen Fehler (wie fehlende Schlösser).
- Der menschliche Experte macht die „schwierige Arbeit": Er nutzt sein Bauchgefühl und sein tiefes Verständnis des Systems, um die 100 versteckten, komplexen Fallen zu finden, die die KI übersehen hat.

Fazit

Die KI ist kein Roboter-Cop, der die Blockchain allein bewacht. Sie ist eher wie ein junger, fleißiger Praktikant. Er ist schnell, findet viele offensichtliche Fehler und hilft dem Chef (dem menschlichen Auditor), Zeit zu sparen. Aber er kann den Chef noch nicht ersetzen. Wenn wir uns nur auf den Praktikanten verlassen, ohne den Chef hinzuzuziehen, werden wir übersehen, dass der Tresor doch noch eine versteckte Falle hat.

Kurz gesagt: KI ist ein mächtiges Werkzeug, aber wir brauchen noch immer menschliche Intelligenz, um sicherzustellen, dass unser digitales Geld wirklich sicher ist.

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. Das Problem: Der „Lehrbuch-Trick"

2. Die Ergebnisse: Von „Superheld" zu „Hilfskraft"

3. Das Werkzeug macht den Meister

4. Was bedeutet das für uns?

Fazit

1. Problemstellung und Motivation

2. Methodik und Evaluierungsdesign

3. Wichtige Beiträge und Ergebnisse

A. Instabilität der Ergebnisse

B. Die Diskrepanz zwischen Entdeckung und Ausnutzung (Realität vs. Benchmark)

C. Begrenzte Fähigkeiten und False Positives

4. Signifikanz und Implikationen für die Industrie

Fazit

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. Das Problem: Der „Lehrbuch-Trick"

2. Die Ergebnisse: Von „Superheld" zu „Hilfskraft"

3. Das Werkzeug macht den Meister

4. Was bedeutet das für uns?

Fazit

1. Problemstellung und Motivation

2. Methodik und Evaluierungsdesign

3. Wichtige Beiträge und Ergebnisse

A. Instabilität der Ergebnisse

B. Die Diskrepanz zwischen Entdeckung und Ausnutzung (Realität vs. Benchmark)

C. Begrenzte Fähigkeiten und False Positives

4. Signifikanz und Implikationen für die Industrie

Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities