Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Deze studie weerlegt de optimistische conclusies van EVMbench over de onmiddellijke bruikbaarheid van volledig geautomatiseerde AI-audits voor smart contracts door aan te tonen dat de prestaties van agenten instabiel zijn, gevoelig voor data-verontreiniging en afhankelijk van de gebruikte scaffolding, waardoor menselijke expertise in een 'human-in-the-loop'-workflow onmisbaar blijft.

Chaoyuan Peng, Lei Wu, Yajin Zhou

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van blockchain en digitale valuta (zoals Ethereum) een enorme, complexe stad is. In deze stad worden "slimme contracten" gebruikt: dit zijn automatische regels die geld verplaatsen, leningen geven of spullen ruilen zonder dat een mens hoeft tussen te komen. Maar als er een foutje in deze regels zit, kan dat leiden tot enorme diefstal.

Vroeger werden deze regels gecontroleerd door een team van zeer gespecialerde veiligheidsinspecteurs (auditors). Maar nu is er een nieuwe kracht opgedoken: AI-agenten. Dit zijn slimme computerprogramma's die beloven om deze inspecties sneller en goedkoper uit te voeren.

Eind 2025 brachten grote tech-bedrijven een rapport uit (genaamd EVMbench) waarin ze zeiden: "De AI-agenten zijn bijna klaar! Ze vinden 45% van de fouten en kunnen 72% van de diefstalplannen uitvoeren. De toekomst is nu!"

Drie onderzoekers van de universiteit van Zhejiang en het beveiligingsbedrijf BlockSec dachten echter: "Wacht even, laten we dat eens goed nakijken." Ze hebben een eigen test gedaan, en hun conclusie is een flinke koude douche voor de hype.

Hier is wat ze hebben ontdekt, vertaald in een simpel verhaal:

1. De Test was te makkelijk (De "Oefenexamen"-probleem)

De originele test (EVMbench) gebruikte oude examenvragen uit een archief. De AI-modellen die getest werden, zijn waarschijnlijk tijdens hun "schooltijd" (training) al deze vragen tegengekomen.

  • De analogie: Het is alsof je een student test op wiskunde door hem vragen te geven die hij al uit zijn hoofd heeft geleerd. Hij scoort perfect, maar dat betekent niet dat hij echt begrijpt hoe wiskunde werkt.
  • Het nieuwe onderzoek: De onderzoekers maakten een nieuwe test met 22 echte, recente misdrijven die pas na de schooltijd van de AI's plaatsvonden. Dit zijn vragen die de AI nog nooit heeft gezien.

2. De resultaten zijn wisselvallig (De "Sfeer"-probleem)

In de originele test leek het alsof sommige AI's altijd de beste waren. Maar in het nieuwe onderzoek bleek dat de ranglijst volledig veranderde afhankelijk van hoe je de AI instelde.

  • De analogie: Stel je voor dat je twee auto's test op een racecircuit. Auto A wint als hij op een gladde weg rijdt, maar Auto B wint als hij op een modderweg rijdt. De originele test deed alsof er maar één type weg bestond.
  • Het nieuwe onderzoek: Ze ontdekten dat de "gereedschapskist" (de software die de AI gebruikt) belangrijker is dan de "motor" (het AI-model zelf). Soms werkt een open-source gereedschap beter dan de dure, officiële versie van de fabrikant. Als je de gereedschapskist verandert, wisselt de winnaar.

3. Vinden is makkelijk, stelen is moeilijk (De "Dieven"-probleem)

De originele test concludeerde: "Het vinden van de fout is het moeilijkste deel. Als we de fout vinden, is het stelen van het geld makkelijk."

  • De analogie: Het is alsof een detective een gesloten kluis vindt (de fout). De originele test zei: "Zodra we de kluis hebben gevonden, is het openbreken een fluitje van een cent."
  • Het nieuwe onderzoek: Op de echte, recente misdrijven lukte het geen enkele AI om het geld daadwerkelijk te stelen, zelfs niet nadat ze de fout hadden gevonden.
    • De AI kon de sleutel vinden (de fout zien), maar kon de deur niet openmaken omdat de situatie te complex was. Ze raakten vast in de details van hoe het systeem precies werkt.
    • Resultaat: 0% succes op echte misdrijven, terwijl de originele test 72% succes claimde.

4. Wat betekent dit voor ons?

De onderzoekers concluderen dat AI-agenten niet klaar zijn om menselijke auditors volledig te vervangen.

  • Voor ontwikkelaars: Je kunt AI gebruiken als een eerste check. Het is als een metaalzoeker die de bekende, simpele goudklompjes (bekende fouten) vindt. Maar hij mist de ingewikkelde juwelen die diep in de grond zitten.
  • Voor beveiligingsbureaus: De beste aanpak is een samenwerking. Laat de AI het grote werk doen: scan duizenden regels code en zoek naar de simpele fouten. Dan komt de menselijke expert in beeld. Die mens heeft de ervaring, het inzicht in de specifieke regels van het bedrijf en het "kwaadaardige inzicht" om te bedenken hoe een hacker echt zou denken.

De Grootte Conclusie

De hype dat AI binnenkort alle beveiliging overneemt, is voorbarig. AI is een krachtig hulpmiddel, maar geen vervanging.

  • De oude visie: "AI is de nieuwe politiechef die alles oplost."
  • De nieuwe visie: "AI is de beste rechercheur die we hebben, maar hij heeft nog steeds een menselijke inspecteur nodig om de moeilijke, complexe dossiers op te lossen."

Kortom: AI is een fantastische assistent, maar vertrouw nooit blind op hem als het gaat om het bewaken van miljoenen dollars. De menselijke intelligentie blijft onmisbaar.