Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次给“智能安全卫士”（AI 代理）进行的突击体检。

在 2026 年，OpenAI 等大公司发布了一份名为"EVMbench"的报告，声称 AI 在检查区块链智能合约（可以理解为“自动执行的数字合同”）的安全漏洞方面表现惊人，甚至暗示未来可能完全不需要人类审计师了。

但这篇论文的作者（来自浙江大学和 BlockSec）决定重新做一遍测试，结果发现：之前的报告有点“注水”，AI 离完全取代人类还有很长的路要走。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这篇论文的核心内容：

1. 之前的考试太“简单”且“有作弊嫌疑”

比喻：考前泄题的模拟考
之前的 EVMbench 测试，就像是在考前把试卷（漏洞案例）提前发给了学生（AI 模型）。

问题一（范围太窄）： 之前的测试只让 14 种不同的“学生组合”（模型 + 工具）参加考试，而且大部分学生只用了自己公司发的“专用文具”（厂商自带的工具）。这就像只让穿耐克鞋的运动员在耐克跑道上比赛，没法公平地比较谁真的跑得快。
问题二（题目太熟）： 很多题目是 2025 年之前的旧题，AI 可能在训练时已经背过答案了。这就像学生背下了标准答案，考高分不代表他真的学会了解题。

2. 作者搞了个“真枪实弹”的突击检查

为了看清 AI 的真实水平，作者们搞了个新测试：

扩大阵容： 他们找了 26 种不同的“学生组合”，包括最新的模型和开源工具，就像让穿不同品牌鞋的运动员在多种跑道上比赛。
全新考题： 他们收集了 22 个2026 年 2 月之后发生的真实黑客攻击事件。这些题目 AI 在训练时绝对没见过（因为还没发生），就像突然给考生出了一套从未见过的“奥数题”。

3. 测试结果：AI 有点“偏科”，而且“眼高手低”

这次突击检查发现了三个惊人的真相：

A. 排名像坐过山车（不稳定）

比喻：今天的短跑冠军，明天可能跑不过马拉松
在之前的测试里，某些 AI 模型排名很高。但在新的测试中，排名完全乱了套。

有的模型在“找漏洞”（Detect）时很厉害，但一让它“利用漏洞”（Exploit，即模拟黑客攻击），排名就掉到底了。
甚至换一种“文具”（工具框架），同一个模型的成绩能差出 5 个百分点。这说明之前的排名可能只是运气好，或者工具太顺手，而不是模型本身真的强。

B. 能“看见”但不会“动手”（发现容易，利用难）

比喻：能认出老虎，但抓不住老虎
这是最关键的发现。

之前的结论： 只要找到漏洞，利用它很容易。
现在的真相： 在真实的黑客攻击案例中，没有任何一个 AI 成功完成了一次完整的“从发现到获利”的攻击（110 次尝试，0 次成功）。
AI 能认出大概 65% 的漏洞（就像能认出老虎在哪），但一旦要真正动手去“偷钱”（利用漏洞），它们就束手无策了。它们不知道如何组合复杂的步骤，或者搞不懂那些只有人类专家才懂的“潜规则”。

C. 工具比脑子更重要

比喻：给同一个司机换辆好车，他开得更好
研究发现，给 AI 换个更好的“工具箱”（开源工具 OpenCode），它的表现比用厂商自带的工具还要好。这说明，怎么使用 AI（工具链）比 AI 本身是谁更重要。之前的报告没控制好这个变量，导致结论有偏差。

4. 这对我们意味着什么？（结论与建议）

这篇论文并没有说 AI 没用，而是说AI 还没准备好“独当一面”。

对开发者（程序员）：
你可以把 AI 当作一个**“初筛员”**。在代码上线前，让 AI 跑一遍，它能帮你抓出那些明显的、常见的低级错误（比如忘了设密码、算数溢出）。这就像让 AI 帮你检查作文里的错别字。
- 警告： 别以为 AI 检查过了就万事大吉，它漏掉了一半以上的深层漏洞。
对审计公司（专业机构）：
未来的模式应该是 “人机协作”（Human-in-the-loop）。
- AI 负责“广度”： 像扫地机器人一样，快速扫描成千上万行代码，把明显的垃圾和常见漏洞挑出来。
- 人类负责“深度”： 人类专家负责处理那些复杂的、需要逻辑推理的、涉及特定业务规则的“硬骨头”。
- 比喻： AI 是那个拿着放大镜找灰尘的助手，而人类是那个拿着手术刀做精密手术的医生。助手能帮你省时间，但手术还得医生来做。

总结

这篇论文就像给过度吹捧 AI 安全能力的泡沫“放了气”。它告诉我们：AI 确实是个聪明的助手，能发现很多老毛病，但它还太年轻，缺乏真正的“黑客思维”和复杂场景下的判断力。

在智能合约安全领域，完全自动化的 AI 审计时代还没到来，人类专家依然是不可或缺的“守门人”。未来的方向不是用 AI 取代人，而是让人和 AI 配合得更好。

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. 之前的考试太“简单”且“有作弊嫌疑”

2. 作者搞了个“真枪实弹”的突击检查

3. 测试结果：AI 有点“偏科”，而且“眼高手低”

A. 排名像坐过山车（不稳定）

B. 能“看见”但不会“动手”（发现容易，利用难）

C. 工具比脑子更重要

4. 这对我们意味着什么？（结论与建议）

总结

《重新评估 EVMBench：AI 智能体是否已准备好进行智能合约安全审计？》技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 扩展的智能体配置

2.2 构建无污染的“真实事件”数据集 (Incidents Dataset)

2.3 评估任务与指标

3. 主要发现与结果 (Key Findings & Results)

3.1 检测结果的稳定性差 (Instability)

3.2 真实世界利用能力为零 (Zero Exploit Success)

3.3 检测能力的局限性

4. 核心贡献 (Key Contributions)

5. 意义与行业影响 (Significance & Implications)

5.1 对开发者的启示

5.2 对审计公司的启示

5.3 对评估方法的启示

总结

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. 之前的考试太“简单”且“有作弊嫌疑”

2. 作者搞了个“真枪实弹”的突击检查

3. 测试结果：AI 有点“偏科”，而且“眼高手低”

A. 排名像坐过山车（不稳定）

B. 能“看见”但不会“动手”（发现容易，利用难）

C. 工具比脑子更重要

4. 这对我们意味着什么？（结论与建议）

总结

《重新评估 EVMBench：AI 智能体是否已准备好进行智能合约安全审计？》技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 扩展的智能体配置

2.2 构建无污染的“真实事件”数据集 (Incidents Dataset)

2.3 评估任务与指标

3. 主要发现与结果 (Key Findings & Results)

3.1 检测结果的稳定性差 (Instability)

3.2 真实世界利用能力为零 (Zero Exploit Success)

3.3 检测能力的局限性

4. 核心贡献 (Key Contributions)

5. 意义与行业影响 (Significance & Implications)

5.1 对开发者的启示

5.2 对审计公司的启示

5.3 对评估方法的启示

总结

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities