Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。

Chaoyuan Peng, Lei Wu, Yajin Zhou

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次给“智能安全卫士”(AI 代理)进行的突击体检

在 2026 年,OpenAI 等大公司发布了一份名为"EVMbench"的报告,声称 AI 在检查区块链智能合约(可以理解为“自动执行的数字合同”)的安全漏洞方面表现惊人,甚至暗示未来可能完全不需要人类审计师了。

但这篇论文的作者(来自浙江大学和 BlockSec)决定重新做一遍测试,结果发现:之前的报告有点“注水”,AI 离完全取代人类还有很长的路要走。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心内容:

1. 之前的考试太“简单”且“有作弊嫌疑”

比喻:考前泄题的模拟考
之前的 EVMbench 测试,就像是在考前把试卷(漏洞案例)提前发给了学生(AI 模型)。

  • 问题一(范围太窄): 之前的测试只让 14 种不同的“学生组合”(模型 + 工具)参加考试,而且大部分学生只用了自己公司发的“专用文具”(厂商自带的工具)。这就像只让穿耐克鞋的运动员在耐克跑道上比赛,没法公平地比较谁真的跑得快。
  • 问题二(题目太熟): 很多题目是 2025 年之前的旧题,AI 可能在训练时已经背过答案了。这就像学生背下了标准答案,考高分不代表他真的学会了解题。

2. 作者搞了个“真枪实弹”的突击检查

为了看清 AI 的真实水平,作者们搞了个新测试:

  • 扩大阵容: 他们找了 26 种不同的“学生组合”,包括最新的模型和开源工具,就像让穿不同品牌鞋的运动员在多种跑道上比赛。
  • 全新考题: 他们收集了 22 个2026 年 2 月之后发生的真实黑客攻击事件。这些题目 AI 在训练时绝对没见过(因为还没发生),就像突然给考生出了一套从未见过的“奥数题”。

3. 测试结果:AI 有点“偏科”,而且“眼高手低”

这次突击检查发现了三个惊人的真相:

A. 排名像坐过山车(不稳定)

比喻:今天的短跑冠军,明天可能跑不过马拉松
在之前的测试里,某些 AI 模型排名很高。但在新的测试中,排名完全乱了套。

  • 有的模型在“找漏洞”(Detect)时很厉害,但一让它“利用漏洞”(Exploit,即模拟黑客攻击),排名就掉到底了。
  • 甚至换一种“文具”(工具框架),同一个模型的成绩能差出 5 个百分点。这说明之前的排名可能只是运气好,或者工具太顺手,而不是模型本身真的强。

B. 能“看见”但不会“动手”(发现容易,利用难)

比喻:能认出老虎,但抓不住老虎
这是最关键的发现。

  • 之前的结论: 只要找到漏洞,利用它很容易。
  • 现在的真相: 在真实的黑客攻击案例中,没有任何一个 AI 成功完成了一次完整的“从发现到获利”的攻击(110 次尝试,0 次成功)。
  • AI 能认出大概 65% 的漏洞(就像能认出老虎在哪),但一旦要真正动手去“偷钱”(利用漏洞),它们就束手无策了。它们不知道如何组合复杂的步骤,或者搞不懂那些只有人类专家才懂的“潜规则”。

C. 工具比脑子更重要

比喻:给同一个司机换辆好车,他开得更好
研究发现,给 AI 换个更好的“工具箱”(开源工具 OpenCode),它的表现比用厂商自带的工具还要好。这说明,怎么使用 AI(工具链)比 AI 本身是谁更重要。之前的报告没控制好这个变量,导致结论有偏差。

4. 这对我们意味着什么?(结论与建议)

这篇论文并没有说 AI 没用,而是说AI 还没准备好“独当一面”

  • 对开发者(程序员):
    你可以把 AI 当作一个**“初筛员”**。在代码上线前,让 AI 跑一遍,它能帮你抓出那些明显的、常见的低级错误(比如忘了设密码、算数溢出)。这就像让 AI 帮你检查作文里的错别字。

    • 警告: 别以为 AI 检查过了就万事大吉,它漏掉了一半以上的深层漏洞。
  • 对审计公司(专业机构):
    未来的模式应该是 “人机协作”(Human-in-the-loop)

    • AI 负责“广度”: 像扫地机器人一样,快速扫描成千上万行代码,把明显的垃圾和常见漏洞挑出来。
    • 人类负责“深度”: 人类专家负责处理那些复杂的、需要逻辑推理的、涉及特定业务规则的“硬骨头”。
    • 比喻: AI 是那个拿着放大镜找灰尘的助手,而人类是那个拿着手术刀做精密手术的医生。助手能帮你省时间,但手术还得医生来做。

总结

这篇论文就像给过度吹捧 AI 安全能力的泡沫“放了气”。它告诉我们:AI 确实是个聪明的助手,能发现很多老毛病,但它还太年轻,缺乏真正的“黑客思维”和复杂场景下的判断力。

在智能合约安全领域,完全自动化的 AI 审计时代还没到来,人类专家依然是不可或缺的“守门人”。未来的方向不是用 AI 取代人,而是让人和 AI 配合得更好。