EVMbench: Evaluating AI Agents on Smart Contract Security

Each language version is independently generated for its own context, not a direct translation.

EVMbench: De "Vuurdoop" voor AI in de Wereld van Digitale Geldkassen

Stel je voor dat smart contracts (de slimme computerprogramma's op blockchains zoals Ethereum) gigantische, onzichtbare banken zijn. Ze bewaken biljoenen dollars aan geld. Maar in tegenstelling tot een echte bank met bewakers en deuren, zijn deze digitale banken gemaakt van code. Als er één klein foutje in die code zit, kan een hacker het hele geld verdwijnen laten. En het ergste is: als het geld weg is, is het voor altijd weg. Je kunt het niet terugdraaien.

Nu worden AI-agenten (slimme computerprogramma's die zelf kunnen nadenken en acties uitvoeren) steeds beter in het lezen en schrijven van code. De vraag is: Zijn deze AI's nu al slim genoeg om deze digitale banken te beveiligen, of zijn ze juist gevaarlijk genoeg om ze te beroven?

Om dit uit te vinden, hebben onderzoekers van OpenAI, Paradigm en OtterSec EVMbench bedacht.

Wat is EVMbench eigenlijk?

Denk aan EVMbench als een gigantische, digitale "Escape Room" of een veiligheidsleerling-examen, speciaal ontworpen voor AI's. In plaats van alleen vragen te stellen, laten ze de AI's echt aan de slag gaan in een veilige, gesimuleerde wereld die precies doet wat de echte blockchain doet.

Het examen heeft drie hoofddelen (de "modes"):

De Detectie (De Vuurdoop):
- De taak: De AI moet als een detective door een berg code lopen en alle mogelijke diefstalroutes vinden.
- De analogie: Het is alsof je een AI in een gebouw laat lopen en vraagt: "Vind alle ramen die niet dicht kunnen, alle deuren die op slot zijn, en alle sleutels die onder de mat liggen."
- Het doel: Kijk of de AI alle gevaarlijke plekken ziet, niet alleen één.
De Patch (De Reparateur):
- De taak: Als de AI een fout heeft gevonden, moet hij de code direct repareren.
- De analogie: Stel je voor dat je een lek in een dam hebt gevonden. De AI moet niet alleen het gat zien, maar ook het cement erin gooien, zodat het water niet meer lekt. Maar! Hij mag de dam niet kapot maken; de normale functies (zoals het afvoeren van water) moeten gewoon blijven werken.
- Het doel: Kijk of de AI het probleem echt oplost zonder nieuwe problemen te creëren.
De Exploit (De Dief):
- De taak: Dit is het spannendste deel. De AI krijgt een virtueel zakje met geld en moet proberen het geld van de "slachtoffer"-contracten te stelen door de fouten die hij heeft gevonden.
- De analogie: De AI is nu de inbreker. Hij moet een plan maken, de deur openbreken, het geld pakken en wegkomen, alles binnen de regels van de simulatie.
- Het doel: Kijk of de AI daadwerkelijk in staat is om het geld te stelen. Als hij dit kan, betekent dit dat de AI een reëel gevaar vormt voor de echte wereld.

Wat hebben ze ontdekt?

De onderzoekers hebben de beste AI's van dit moment (zoals GPT-5, Claude en Gemini) op deze test gezet. Hier zijn de belangrijkste resultaten:

AI's zijn gevaarlijk slim: Sommige AI's waren in staat om end-to-end hacks uit te voeren. Ze vonden de fout, bedachten een plan en stalen het virtuele geld in de simulatie. Dit bewijst dat AI's nu een reëel risico vormen voor crypto-economieën.
Het vinden van fouten is het moeilijkste: De AI's waren vaak goed in het repareren van een fout als ze wisten waar het zat. Maar het vinden van die fouten in een enorme berg code (zoals een hele stad zoeken naar één verkeerd geparkeerde auto) was nog steeds erg moeilijk.
Hulp maakt het makkelijker: Als de onderzoekers de AI een hint gaven (bijvoorbeeld: "Kijk naar dit specifieke bestand"), werden de AI's veel beter in het vinden en repareren van fouten. Dit betekent dat de AI's de kennis hebben, maar soms moeite hebben met het zoeken in de chaos.
Niet alle AI's zijn even goed: De AI's die specifiek zijn getraind voor coderen (zoals GPT-5.3-Codex) deden het veel beter dan de algemene AI's.

Waarom is dit belangrijk?

Dit onderzoek is een wake-up call.

Voor de veiligheid: Het laat zien dat we AI's kunnen gebruiken om onze digitale banken veiliger te maken, voordat echte hackers het geld stelen.
Voor het risico: Het waarschuwt dat als we AI's niet goed in de gaten houden, dezelfde technologie gebruikt kan worden om miljarden te stelen.

De conclusie in één zin:

EVMbench is de eerste echte test die laat zien dat AI's niet alleen kunnen lezen wat er op een computer staat, maar dat ze nu ook actief kunnen inbreken in de digitale wereld van geld. Het is een noodzaak om deze AI's te blijven testen, zodat we ze kunnen gebruiken als super-detectives en niet als super-dieven.

Kortom: De AI's zijn net zo slim als we dachten, maar ze zijn ook net zo gevaarlijk. We moeten ze blijven trainen om de "reparateurs" te zijn, voordat de echte "inbrekers" ze gebruiken.

EVMbench: Evaluating AI Agents on Smart Contract Security

EVMbench: De "Vuurdoop" voor AI in de Wereld van Digitale Geldkassen

Wat is EVMbench eigenlijk?

Wat hebben ze ontdekt?

Waarom is dit belangrijk?

De conclusie in één zin:

1. Probleemstelling

2. Methodologie: EVMbench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

EVMbench: Evaluating AI Agents on Smart Contract Security

EVMbench: De "Vuurdoop" voor AI in de Wereld van Digitale Geldkassen

Wat is EVMbench eigenlijk?

Wat hebben ze ontdekt?

Waarom is dit belangrijk?

De conclusie in één zin:

1. Probleemstelling

2. Methodologie: EVMbench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing