Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 EVMbench 的新工具,它的核心任务很简单:给现在的 AI 智能体(AI Agents)做一场关于“区块链智能合约安全”的期末考试。
为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“黑客与保安”的模拟演习**。
1. 背景:为什么我们需要这场考试?
想象一下,现在的区块链(比如以太坊)就像是一个巨大的、无人值守的自动银行。
- 智能合约是这个银行里的自动售货机或保险箱。它们一旦设定好,就会自动执行,没人能随意修改。
- 里面存放着价值数万亿美元的资产(比如稳定币)。
- 问题在于:如果这个自动售货机的设计图纸(代码)里有一个小漏洞,坏人就能把里面的钱全部偷走,而且因为它是自动的,钱一旦转走就无法追回。
随着 AI 变得越来越聪明,它们不仅能写代码,还能像人类一样“思考”和“行动”。这就引出了一个令人担忧的问题:如果 AI 学会了找漏洞,它们是会变成超级保安,帮我们要堵住漏洞?还是会变成超级黑客,把银行洗劫一空?
2. EVMbench 是什么?(考试系统)
为了解答这个问题,OpenAI、Paradigm 和 OtterSec 联手开发了一个**“智能合约安全竞技场”**,也就是 EVMbench。
这就好比给 AI 们准备了一个模拟的“黑客帝国”游乐场,里面有 117 个精心设计的“陷阱”(漏洞)。AI 需要在这个游乐场里完成三种任务:
任务一:侦探模式 (Detect) —— “找茬”
- 场景:AI 拿到一堆复杂的代码(就像一堆乱糟糟的图纸)。
- 任务:AI 需要像侦探一样,找出里面所有可能导致丢钱的漏洞,并写一份报告。
- 评分:看它找得全不全,准不准。
任务二:修补模式 (Patch) —— “打补丁”
- 场景:AI 发现漏洞后,不能只动嘴,得动手。
- 任务:AI 需要修改代码,把漏洞堵上,同时保证原来的功能(比如存钱、取钱)还能正常工作。
- 评分:看它修得对不对,会不会把机器修坏。
任务三:黑客模式 (Exploit) —— “实战攻击”
- 场景:这是最刺激的部分。AI 被赋予了一个真实的虚拟钱包和一笔启动资金,连接到一个模拟的区块链网络。
- 任务:AI 必须像真正的黑客一样,编写攻击脚本,发送交易,真的把模拟银行里的钱“偷”出来。
- 评分:看它能不能真的把钱转进自己的口袋。如果成功了,就得分;如果失败了,就不得分。
3. 考试结果:AI 表现如何?
研究人员测试了目前世界上最顶尖的几款 AI 模型(比如 GPT-5 系列、Claude Opus 等),结果让人既惊讶又警惕:
- 它们真的能当黑客:在“黑客模式”下,最强的 AI 模型(如 GPT-5.3-Codex)竟然成功地对模拟区块链发动了端到端的攻击,真的把“钱”偷了出来。这意味着,如果给它们真实的权限,它们完全有能力造成巨大的经济损失。
- 它们也能当保安:在“侦探”和“修补”模式下,AI 也表现出了很强的能力,能发现并修复很多漏洞。
- 主要瓶颈是“发现”:研究发现,AI 其实很擅长“修补”和“攻击”(只要告诉它漏洞在哪,它就能搞定)。最大的难点在于“发现”——在成千上万行代码中,像大海捞针一样找到那个隐藏的漏洞。
4. 核心比喻:AI 是一把双刃剑
这篇论文用一个生动的比喻总结了现状:
AI 就像一把极其锋利的瑞士军刀。
- 如果你把它交给专业的锁匠(安全审计员),它能帮你在几秒钟内发现并修复成千上万个锁的缺陷,保护大家的财产。
- 但如果把它交给坏人,或者让它在没有监管的情况下自由行动,它也能在几秒钟内撬开所有的锁,把里面的东西偷光。
5. 结论与意义
这篇论文最重要的贡献不是告诉我们要“禁止 AI",而是建立了一个标准的“测谎仪”和“训练场”。
- 对于安全:我们需要时刻监控 AI 的能力。如果 AI 能轻易攻破现在的区块链,我们就必须赶紧升级防御,或者在 AI 变得更强大之前,先让 AI 帮我们修好所有的漏洞。
- 对于未来:EVMbench 是开源的,这意味着全世界的研究人员都可以用这个工具来测试新的 AI 模型,看看它们是否变得更危险,或者更安全。
一句话总结:
这篇论文告诉我们,AI 在区块链安全领域已经具备了**“既能当顶级保安,也能当顶级大盗”**的能力。为了不让世界被“数字大盗”洗劫,我们需要用 EVMbench 这样的工具,时刻盯着 AI 的能力边界,确保它们被用在正确的地方。
Each language version is independently generated for its own context, not a direct translation.
EVMbench:评估 AI 智能体在智能合约安全中的能力
1. 研究背景与问题定义
随着公共区块链(如以太坊)从实验性账本发展为成熟的金融基础设施,智能合约管理的资产规模已突破千亿美元。然而,智能合约的不可篡改性和执行确定性意味着一旦存在漏洞,攻击将导致即时且不可逆转的巨大损失。
随着人工智能(AI)模型在代码阅读、编写和执行方面的能力不断提升,一个关键问题随之产生:AI 智能体在智能合约安全领域的能力边界在哪里? 它们既能成为强大的防御工具(发现并修复漏洞),也可能成为极具威胁的攻击者(利用漏洞窃取资金)。
现有的网络安全评估基准(如 CTF、CVE 相关基准)主要关注传统软件漏洞,缺乏对智能合约全生命周期(发现、修复、利用)的评估,且往往缺乏真实的区块链执行环境。因此,亟需一个能够模拟真实区块链环境、涵盖从漏洞检测到实际利用全流程的评估框架。
2. 方法论:EVMbench 框架
作者提出了 EVMbench,这是一个专门用于评估 AI 智能体在智能合约安全中能力的基准测试框架。该框架基于 117 个经过精心筛选的高严重性漏洞(来自 40 个不同的审计报告,主要源自 Code4rena 平台),并设计了三种核心评估模式:
2.1 三种评估模式
检测模式 (Detect):
- 任务:智能体作为审计员,审查给定的智能合约代码库,识别所有可能导致资金损失的高严重性漏洞。
- 评分:基于模型裁判(Model-based Judge)将智能体的报告与真实审计报告(Ground Truth)进行比对,计算漏洞召回率。同时根据历史审计奖金分配情况计算经济奖励。
- 核心要求:全面覆盖(Comprehensive Coverage),即必须发现代码库中所有相关漏洞,而不仅仅是第一个。
修复模式 (Patch):
- 任务:智能体直接修改有漏洞的代码库以修复发现的问题。
- 环境:智能体拥有访问现有测试套件和依赖项的权限。
- 评分:
- 功能性验证:修复后的代码必须通过原有的测试(除非原测试依赖于漏洞逻辑)。
- 安全性验证:使用未公开的利用测试(Exploit tests)验证漏洞是否已被真正修复。
- 核心要求:修复必须有效且不能破坏原有功能。
利用模式 (Exploit):
- 任务:智能体作为攻击者,在本地以太坊实例(Local Ethereum Instance)上,利用资金账户和 RPC 端点,执行端到端的漏洞利用,以窃取资金或控制合约。
- 环境:智能体在隔离的 Docker 容器中运行,通过 RPC 与本地 Anvil 节点交互。
- 评分:基于链上状态(如钱包余额变化、事件日志)进行程序化评分。如果智能体成功将资金转移到指定地址,则判定为成功。
- 核心要求:必须构建完整的交易序列,在真实的链上环境中完成攻击。
2.2 技术基础设施
- 执行环境:所有任务均在隔离的 Ubuntu 24.04 Docker 容器中运行,禁用互联网访问,仅允许访问必要的开发工具(如 Foundry)。
- 重放框架 (Re-execution Framework):作者开发了一个基于 Rust 的工具(
ploit 和 veto),用于在独立的评分容器中重新执行智能体的交易序列。这确保了评估的可重复性,并防止作弊(例如,通过拦截 RPC 方法禁止智能体直接修改链状态)。
- 数据源:漏洞主要来自 Code4rena 的竞赛报告,经过人工筛选和验证,确保漏洞可复现且具有高严重性。
3. 主要贡献
- 首个端到端智能合约安全基准:EVMbench 是首个同时评估智能体在检测、修复和利用三个关键环节能力的框架,且评分完全程序化,特别是在利用模式下基于真实的链上状态变化。
- 基于 Rust 的重放与评分系统:开发了定制化工具,能够在隔离环境中安全、快速地重放智能体的攻击交易,并基于链上事件进行客观评分,有效防止作弊。
- 高质量数据集与真实场景: curated 了 117 个来自真实审计的高严重性漏洞,提供了 oracle 补丁和利用脚本,并保留了真实的代码库约束和攻击者激励。
- 前沿模型评估与定性分析:评估了包括 GPT-5、Claude Opus、Gemini 3 Pro 在内的多个前沿模型,提供了详细的定性分析(Rollouts),揭示了模型在推理、工具使用和失败模式上的具体表现。
- 开源与可复现性:公开了数据集、评估框架和工具,支持社区持续追踪 AI 在安全领域的能力进展。
4. 实验结果
作者对多个前沿 AI 智能体进行了评估,主要发现如下:
- 利用能力显著:在利用模式 (Exploit) 中,表现最好的模型(GPT-5.3-Codex)成功利用了 71.0% 的漏洞。这表明 AI 智能体已经具备在真实区块链环境中执行端到端攻击的能力,能够自主分析链上状态、部署辅助合约并构造交易。
- 检测与修复的差距:
- 检测 (Detect):Claude Opus 4.6 表现最佳,召回率为 45.9%。
- 修复 (Patch):GPT-5.3-Codex 表现最佳,成功率为 41.7%。
- 关键发现:模型往往能发现漏洞,但在大规模代码库中难以全面覆盖(即漏掉部分漏洞)。此外,即使模型知道如何修复,有时也难以构造正确的交易来验证利用。
- 提示(Hints)的影响:实验表明,提供关于漏洞位置的提示(低/中/高)能显著提升 Patch 和 Exploit 模式下的性能(例如,GPT-5.2 在中度提示下,Patch 得分从 39.4% 提升至 90.2%)。这说明漏洞发现(在大型代码库中定位问题)是主要瓶颈,而非修复或交易构造本身。
- 工具链的重要性:使用专门优化的 CLI(如 Codex CLI)比通用框架(OpenCode)表现更好,表明智能体的架构和工具集成对最终性能有重大影响。
5. 意义与未来展望
- 安全风险评估:EVMbench 的结果表明,AI 智能体已成为智能合约安全的重大威胁。它们能够自动化地发现并利用漏洞,这意味着传统的静态审计可能不足以应对未来的风险。
- 防御性 AI 的潜力:虽然 AI 能攻击,但其在检测和修复方面的潜力同样巨大。EVMbench 为衡量 AI 作为防御工具的有效性提供了基准,有助于推动自动化安全审计的发展。
- 监管与部署:随着 AI 能力的提升,在将 AI 部署到处理真实资金的系统中时,必须严格评估其利用漏洞的能力。EVMbench 为这种评估提供了科学依据。
- 未来方向:作者指出未来的工作应扩展到 Solana 等其他链、跨链协议、MEV(矿工可提取价值)交易排序以及零知识证明电路等更复杂的领域。
总结:EVMbench 揭示了 AI 智能体在智能合约安全领域的“双刃剑”特性。虽然目前的模型在全面覆盖漏洞方面仍有不足,但它们已经具备了在真实区块链环境中执行复杂攻击的能力。这一基准测试对于理解 AI 安全风险、指导防御策略以及推动安全 AI 的发展具有里程碑意义。