Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一次给“智能安全卫士”(AI 代理)进行的突击体检。
在 2026 年,OpenAI 等大公司发布了一份名为"EVMbench"的报告,声称 AI 在检查区块链智能合约(可以理解为“自动执行的数字合同”)的安全漏洞方面表现惊人,甚至暗示未来可能完全不需要人类审计师了。
但这篇论文的作者(来自浙江大学和 BlockSec)决定重新做一遍测试,结果发现:之前的报告有点“注水”,AI 离完全取代人类还有很长的路要走。
为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心内容:
1. 之前的考试太“简单”且“有作弊嫌疑”
比喻:考前泄题的模拟考
之前的 EVMbench 测试,就像是在考前把试卷(漏洞案例)提前发给了学生(AI 模型)。
- 问题一(范围太窄): 之前的测试只让 14 种不同的“学生组合”(模型 + 工具)参加考试,而且大部分学生只用了自己公司发的“专用文具”(厂商自带的工具)。这就像只让穿耐克鞋的运动员在耐克跑道上比赛,没法公平地比较谁真的跑得快。
- 问题二(题目太熟): 很多题目是 2025 年之前的旧题,AI 可能在训练时已经背过答案了。这就像学生背下了标准答案,考高分不代表他真的学会了解题。
2. 作者搞了个“真枪实弹”的突击检查
为了看清 AI 的真实水平,作者们搞了个新测试:
- 扩大阵容: 他们找了 26 种不同的“学生组合”,包括最新的模型和开源工具,就像让穿不同品牌鞋的运动员在多种跑道上比赛。
- 全新考题: 他们收集了 22 个2026 年 2 月之后发生的真实黑客攻击事件。这些题目 AI 在训练时绝对没见过(因为还没发生),就像突然给考生出了一套从未见过的“奥数题”。
3. 测试结果:AI 有点“偏科”,而且“眼高手低”
这次突击检查发现了三个惊人的真相:
A. 排名像坐过山车(不稳定)
比喻:今天的短跑冠军,明天可能跑不过马拉松
在之前的测试里,某些 AI 模型排名很高。但在新的测试中,排名完全乱了套。
- 有的模型在“找漏洞”(Detect)时很厉害,但一让它“利用漏洞”(Exploit,即模拟黑客攻击),排名就掉到底了。
- 甚至换一种“文具”(工具框架),同一个模型的成绩能差出 5 个百分点。这说明之前的排名可能只是运气好,或者工具太顺手,而不是模型本身真的强。
B. 能“看见”但不会“动手”(发现容易,利用难)
比喻:能认出老虎,但抓不住老虎
这是最关键的发现。
- 之前的结论: 只要找到漏洞,利用它很容易。
- 现在的真相: 在真实的黑客攻击案例中,没有任何一个 AI 成功完成了一次完整的“从发现到获利”的攻击(110 次尝试,0 次成功)。
- AI 能认出大概 65% 的漏洞(就像能认出老虎在哪),但一旦要真正动手去“偷钱”(利用漏洞),它们就束手无策了。它们不知道如何组合复杂的步骤,或者搞不懂那些只有人类专家才懂的“潜规则”。
C. 工具比脑子更重要
比喻:给同一个司机换辆好车,他开得更好
研究发现,给 AI 换个更好的“工具箱”(开源工具 OpenCode),它的表现比用厂商自带的工具还要好。这说明,怎么使用 AI(工具链)比 AI 本身是谁更重要。之前的报告没控制好这个变量,导致结论有偏差。
4. 这对我们意味着什么?(结论与建议)
这篇论文并没有说 AI 没用,而是说AI 还没准备好“独当一面”。
总结
这篇论文就像给过度吹捧 AI 安全能力的泡沫“放了气”。它告诉我们:AI 确实是个聪明的助手,能发现很多老毛病,但它还太年轻,缺乏真正的“黑客思维”和复杂场景下的判断力。
在智能合约安全领域,完全自动化的 AI 审计时代还没到来,人类专家依然是不可或缺的“守门人”。未来的方向不是用 AI 取代人,而是让人和 AI 配合得更好。
Each language version is independently generated for its own context, not a direct translation.
《重新评估 EVMBench:AI 智能体是否已准备好进行智能合约安全审计?》技术总结
1. 研究背景与问题 (Problem)
2026 年 2 月,OpenAI、Paradigm 和 OtterSec 发布了 EVMbench,这是首个针对智能合约安全的大规模 AI 智能体基准测试。EVMbench 声称 AI 智能体在漏洞检测上可达 45.6%,在特定子集的漏洞利用(Exploit)上高达 72.2%,并得出结论认为“发现漏洞是主要瓶颈,而修复和利用已触手可及”,暗示全自动 AI 审计即将实现。
然而,本文作者(来自浙江大学和 BlockSec)指出 EVMbench 的实验设计存在两个关键缺陷,导致其结论可能过于乐观且缺乏普适性:
- 评估范围狭窄且存在混淆变量:仅测试了 14 种智能体配置,且大多数模型仅在其厂商提供的脚手架(Scaffold,如 Claude Code, Codex CLI)上运行,未系统性地交叉验证模型与脚手架的组合,导致无法区分性能提升是源于模型本身还是工具链。
- 数据污染与缺乏现实有效性:测试用的 120 个漏洞大多来自 2025 年 8 月之前的 Code4rena 竞赛报告,这些内容极可能包含在 2025-2026 年发布的模型的训练数据中。高分可能源于“死记硬背”而非真正的推理能力。此外,竞赛数据往往经过筛选,缺乏真实世界攻击中的复杂性和未知性。
核心问题:AI 智能体在智能合约安全领域的真实能力究竟如何?全自动审计是否真的迫在眉睫?
2. 方法论 (Methodology)
为了更严谨地评估,作者构建了一个扩展的评估框架,包含以下改进:
2.1 扩展的智能体配置
- 规模扩大:将配置从 14 种扩展至 26 种。
- 模型覆盖:涵盖四大模型家族(Claude, GPT, Gemini, GLM),包括最新一代模型(如 Gemini 3.1 Pro, GPT-5.3-Codex)。
- 脚手架解耦:引入三种脚手架(Claude Code, Codex CLI, 开源的 OpenCode),对同一模型在不同脚手架上进行交叉测试,以分离模型能力与工具链的影响。
2.2 构建无污染的“真实事件”数据集 (Incidents Dataset)
- 数据来源:收集了 22 个真实世界的安全事件,均发生在 2026 年 2 月中旬之后(即所有被评估模型的训练数据截止日期之后)。
- 严格标准:
- 漏洞已在生产链上被利用并造成实际资金损失。
- 每个事件仅包含一个高危逻辑漏洞。
- 代码环境为生产部署状态,无预标记提示。
- 对比:与 EVMbench 的竞赛数据相比,该数据集消除了数据污染,且更接近真实审计场景。
2.3 评估任务与指标
- 任务:专注于 检测 (Detect) 和 利用 (Exploit) 任务(排除了修复 Patch 任务,因其难度主要取决于检测)。
- 检测 (Detect):智能体生成漏洞报告,由模型评分器(Judge)判断是否命中真实漏洞。
- 利用 (Exploit):智能体在分叉的链环境中,无需提示地构建交易序列以执行端到端的攻击并获利。
- 评分器验证:验证了 GPT-5.2 和 GPT-5.3-Codex 作为评分器的可靠性(准确率 99.2%),确保评估结果可信。
3. 主要发现与结果 (Key Findings & Results)
3.1 检测结果的稳定性差 (Instability)
- 排名波动剧烈:模型在不同配置、任务和数据集上的排名极不稳定。
- 例如:Gemini 3.1 Pro 在 EVMbench 检测任务中排名第二(37.5%),但在真实事件数据集中跌至最后(30.0%)。
- 脚手架影响显著:开源脚手架 OpenCode 在 6 次受控比较中 5 次优于厂商原生脚手架,性能提升达 1.7% - 5.0%。这意味着 EVMbench 中归因于模型的差异可能部分源于脚手架选择。
- 推理努力无效:增加推理 Token 数量(Reasoning Effort)并不总是带来性能提升,有时甚至导致性能下降(如 GPT-5.2 在利用任务中,低努力模式优于高努力模式)。
3.2 真实世界利用能力为零 (Zero Exploit Success)
- 与 EVMbench 结论直接矛盾:EVMbench 报告 72.2% 的利用成功率,而作者在真实事件数据集上测试了 110 个“智能体 - 事件”对,没有任何一个智能体成功完成端到端的利用。
- 瓶颈转移:在真实场景中,利用(Exploit)才是真正的瓶颈,而非发现。智能体虽然能检测到部分漏洞(最佳模型检测率 65%),但无法理解复杂的协议交互、跨合约依赖及多步攻击链,导致无法构造获利交易。
3.3 检测能力的局限性
- 检测上限:在 EVMbench 数据集上,最佳模型(Claude Opus 4.6)检测率为 47.5%;在真实事件数据集上为 65%。这意味着仍有超过 30%-50% 的漏洞被遗漏。
- 模式识别 vs. 深度推理:智能体擅长检测已知模式(如缺失访问控制、重入),但在处理跨链重放、复杂的 DeFi 逻辑(如预言机操纵、多步状态不一致)时表现极差,部分任务检测率为 0%。
4. 核心贡献 (Key Contributions)
- 批判性复现与扩展:指出了 EVMbench 在实验设计上的数据污染和混淆变量问题,并提供了更广泛、更严谨的评估基准。
- 构建无污染数据集:发布了包含 22 个真实世界安全事件的 Incidents Dataset,填补了现有基准缺乏“训练后”真实攻击数据的空白。
- 揭示“脚手架效应”:首次系统性地量化了工具链(Scaffold)对 AI 智能体性能的巨大影响,证明开源工具链在特定场景下可超越厂商工具。
- 重新定义瓶颈:通过实证数据推翻了“发现是主要瓶颈”的结论,指出在真实环境中,端到端的漏洞利用才是当前 AI 无法逾越的障碍。
5. 意义与行业影响 (Significance & Implications)
5.1 对开发者的启示
- 辅助而非替代:AI 智能体可作为部署前的预检查工具,用于捕捉常见的已知漏洞模式(如重入、算术溢出)。
- 警惕虚假安全感:由于检测率上限约为 50%-65% 且存在假阳性风险,仅依赖 AI 扫描是危险的。
5.2 对审计公司的启示
- 人机协同(Human-in-the-Loop):全自动审计尚未成熟。最佳实践是构建人机协同的智能体工作流:
- AI 负责广度:快速扫描大规模代码库,过滤常见模式。
- 人类负责深度:提供协议特定知识、对抗性推理和假阳性过滤。
- 知识工程:审计公司应将真实的攻击案例和领域知识编码到智能体工作流中,利用人类指导(Context/Hints)可显著提升智能体的利用成功率(从 65% 提升至 95% 以上)。
5.3 对评估方法的启示
- 未来的基准测试必须控制脚手架变量,使用无污染的测试数据,并引入**精确率(Precision)**指标(惩罚假阳性),而不仅仅是召回率(Recall)。
总结
本文通过严谨的实证研究证明,AI 智能体在智能合约安全领域具有真实但有限的能力。它们能够可靠地识别已知模式,但尚未具备在复杂、未知的真实环境中独立发现并利用漏洞的能力。全自动 AI 审计并非迫在眉睫,未来的方向应当是将 AI 作为增强人类审计师能力的工具,而非替代者。