EVMbench: Evaluating AI Agents on Smart Contract Security

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EVMbench 的新工具，它的核心任务很简单：给现在的 AI 智能体（AI Agents）做一场关于“区块链智能合约安全”的期末考试。

为了让你更容易理解，我们可以把这篇论文的内容想象成一场**“黑客与保安”的模拟演习**。

1. 背景：为什么我们需要这场考试？

想象一下，现在的区块链（比如以太坊）就像是一个巨大的、无人值守的自动银行。

智能合约是这个银行里的自动售货机或保险箱。它们一旦设定好，就会自动执行，没人能随意修改。
里面存放着价值数万亿美元的资产（比如稳定币）。
问题在于：如果这个自动售货机的设计图纸（代码）里有一个小漏洞，坏人就能把里面的钱全部偷走，而且因为它是自动的，钱一旦转走就无法追回。

随着 AI 变得越来越聪明，它们不仅能写代码，还能像人类一样“思考”和“行动”。这就引出了一个令人担忧的问题：如果 AI 学会了找漏洞，它们是会变成超级保安，帮我们要堵住漏洞？还是会变成超级黑客，把银行洗劫一空？

2. EVMbench 是什么？（考试系统）

为了解答这个问题，OpenAI、Paradigm 和 OtterSec 联手开发了一个**“智能合约安全竞技场”**，也就是 EVMbench。

这就好比给 AI 们准备了一个模拟的“黑客帝国”游乐场，里面有 117 个精心设计的“陷阱”（漏洞）。AI 需要在这个游乐场里完成三种任务：

任务一：侦探模式 (Detect) —— “找茬”

场景：AI 拿到一堆复杂的代码（就像一堆乱糟糟的图纸）。
任务：AI 需要像侦探一样，找出里面所有可能导致丢钱的漏洞，并写一份报告。
评分：看它找得全不全，准不准。

任务二：修补模式 (Patch) —— “打补丁”

场景：AI 发现漏洞后，不能只动嘴，得动手。
任务：AI 需要修改代码，把漏洞堵上，同时保证原来的功能（比如存钱、取钱）还能正常工作。
评分：看它修得对不对，会不会把机器修坏。

任务三：黑客模式 (Exploit) —— “实战攻击”

场景：这是最刺激的部分。AI 被赋予了一个真实的虚拟钱包和一笔启动资金，连接到一个模拟的区块链网络。
任务：AI 必须像真正的黑客一样，编写攻击脚本，发送交易，真的把模拟银行里的钱“偷”出来。
评分：看它能不能真的把钱转进自己的口袋。如果成功了，就得分；如果失败了，就不得分。

3. 考试结果：AI 表现如何？

研究人员测试了目前世界上最顶尖的几款 AI 模型（比如 GPT-5 系列、Claude Opus 等），结果让人既惊讶又警惕：

它们真的能当黑客：在“黑客模式”下，最强的 AI 模型（如 GPT-5.3-Codex）竟然成功地对模拟区块链发动了端到端的攻击，真的把“钱”偷了出来。这意味着，如果给它们真实的权限，它们完全有能力造成巨大的经济损失。
它们也能当保安：在“侦探”和“修补”模式下，AI 也表现出了很强的能力，能发现并修复很多漏洞。
主要瓶颈是“发现”：研究发现，AI 其实很擅长“修补”和“攻击”（只要告诉它漏洞在哪，它就能搞定）。最大的难点在于“发现”——在成千上万行代码中，像大海捞针一样找到那个隐藏的漏洞。

4. 核心比喻：AI 是一把双刃剑

这篇论文用一个生动的比喻总结了现状：

AI 就像一把极其锋利的瑞士军刀。

如果你把它交给专业的锁匠（安全审计员），它能帮你在几秒钟内发现并修复成千上万个锁的缺陷，保护大家的财产。

但如果把它交给坏人，或者让它在没有监管的情况下自由行动，它也能在几秒钟内撬开所有的锁，把里面的东西偷光。

5. 结论与意义

这篇论文最重要的贡献不是告诉我们要“禁止 AI"，而是建立了一个标准的“测谎仪”和“训练场”。

对于安全：我们需要时刻监控 AI 的能力。如果 AI 能轻易攻破现在的区块链，我们就必须赶紧升级防御，或者在 AI 变得更强大之前，先让 AI 帮我们修好所有的漏洞。
对于未来：EVMbench 是开源的，这意味着全世界的研究人员都可以用这个工具来测试新的 AI 模型，看看它们是否变得更危险，或者更安全。

一句话总结：
这篇论文告诉我们，AI 在区块链安全领域已经具备了**“既能当顶级保安，也能当顶级大盗”**的能力。为了不让世界被“数字大盗”洗劫，我们需要用 EVMbench 这样的工具，时刻盯着 AI 的能力边界，确保它们被用在正确的地方。

EVMbench: Evaluating AI Agents on Smart Contract Security

1. 背景：为什么我们需要这场考试？

2. EVMbench 是什么？（考试系统）

任务一：侦探模式 (Detect) —— “找茬”

任务二：修补模式 (Patch) —— “打补丁”

任务三：黑客模式 (Exploit) —— “实战攻击”

3. 考试结果：AI 表现如何？

4. 核心比喻：AI 是一把双刃剑

5. 结论与意义

EVMbench：评估 AI 智能体在智能合约安全中的能力

1. 研究背景与问题定义

2. 方法论：EVMbench 框架

2.1 三种评估模式

2.2 技术基础设施

3. 主要贡献

4. 实验结果

5. 意义与未来展望

EVMbench: Evaluating AI Agents on Smart Contract Security

1. 背景：为什么我们需要这场考试？

2. EVMbench 是什么？（考试系统）

任务一：侦探模式 (Detect) —— “找茬”

任务二：修补模式 (Patch) —— “打补丁”

任务三：黑客模式 (Exploit) —— “实战攻击”

3. 考试结果：AI 表现如何？

4. 核心比喻：AI 是一把双刃剑

5. 结论与意义

EVMbench：评估 AI 智能体在智能合约安全中的能力

1. 研究背景与问题定义

2. 方法论：EVMbench 框架

2.1 三种评估模式

2.2 技术基础设施

3. 主要贡献

4. 实验结果

5. 意义与未来展望

类似论文

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing