EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EVM-QuestBench 的新工具，你可以把它想象成是给“人工智能（AI）”考的一场极其严格的“区块链交易实操大考”。

为了让你更容易理解，我们用几个生活中的比喻来拆解它：

1. 为什么要考这场试？（背景与痛点）

想象一下，你让一个非常聪明的AI 管家帮你去银行转账或者投资。

以前的考试：就像让 AI 写一份“转账计划书”。只要它写的字看起来像真的（比如格式对、用词专业），以前的考试就给它打高分。
现实的问题：在区块链世界里，“看起来像真的”没用，必须“真的能转出去”才行。如果 AI 把地址写错了一位，或者把金额的小数点搞错了，用户的钱就会永久丢失，而且无法撤回。
现在的困境：现有的考试太注重“文字相似度”，忽略了“能不能真的执行”。这就好比只检查菜谱写得漂不漂亮，却不检查厨师做出来的菜能不能吃。

2. EVM-QuestBench 是什么？（核心概念）

这是一个**“实战演练场”**。它不再让 AI 只写代码，而是让 AI 真的在区块链上“动真格”。

考场环境：它搭建了一个**“平行宇宙”**（技术叫“分叉链”）。在这个宇宙里，AI 的操作不会真的影响现实世界的钱，但操作的过程和结果和真的一模一样。
考题形式：
- 自然语言指令：考官（人类）用大白话出题，比如“把 0.1 个 ETH 换成 USDT"。
- AI 的任务：AI 必须听懂人话，然后写出能直接执行的代码（TypeScript 脚本）。
- 自动裁判：代码写好后，系统会自动运行。如果钱真的转对了，账户余额变了，就得分；如果转错了或者钱丢了，就零分。

3. 考试分两种难度（任务分类）

这场考试把题目分成了两类，就像游戏里的“新手村”和“副本”：

原子任务 (Atomic Tasks) —— “单点射击”
- 比喻：就像“给张三发 100 块钱”或者“买一张彩票”。
- 要求：只需要做一步动作。考的是 AI 的精准度。比如，能不能把小数点算对？能不能找到正确的收款人？
- 数量：62 道题。
复合任务 (Composite Tasks) —— “连环闯关”
- 比喻：就像“先给张三授权，再让他买彩票，最后把中奖的钱存进银行”。
- 要求：需要多步操作，而且每一步都要依赖上一步的结果。如果第一步授权失败，后面全都会失败。考的是 AI 的逻辑规划能力和记忆力。
- 数量：45 道题。
- 特殊规则：如果 AI 绕了弯路（比如本来 3 步能做完，它走了 5 步），分数会打折。这就像玩游戏，走捷径得分高，绕远路扣分。

4. 考试怎么保证公平？（动态出题）

为了防止 AI 靠“死记硬背”作弊，这个考试采用了**“随机生成”**机制：

比喻：以前的考试题目是固定的（比如“转 100 元”），AI 可能背过答案。现在的考试，每次出题时，金额、地址、时间都是随机抽取的（比如这次转 0.37 元，下次转 1000 元）。
效果：AI 必须真正理解“转账”的逻辑，而不是背答案。这就像每次考试都换一套随机生成的数学题，而不是考固定的应用题。

5. 考试结果怎么样？（发现与结论）

作者找了 20 个不同的 AI 模型来考试，结果发现了一个有趣的现象：

偏科现象严重：
- 有些 AI 是**“单点高手”**：做简单的单步转账非常准，但一遇到需要多步规划的复杂任务就“脑子短路”，完全乱套。
- 有些 AI 是**“规划大师”**：虽然偶尔会在简单的数字计算上犯错，但能很好地规划多步流程，把复杂任务做完。
- 有些 AI 是**“代码专家但不懂业务”**：它们写的代码语法完美，但在区块链的复杂规则（比如先授权再交易）面前，完全不知道该怎么操作，导致任务全部失败。

6. 总结：这篇论文的意义

这篇论文就像给 AI 行业立了一块**“新路标”**：

不再只看“写得像不像”：以后评价 AI 写代码，要看它**“能不能跑通”**。
安全至上：在涉及真金白银的区块链领域，任何小错误都是灾难。这个测试能帮我们要找出那些“看起来聪明但实际危险”的 AI。
模块化设计：这个考试系统很灵活，以后想加新题目（比如新的区块链玩法），只需要像搭积木一样加个新规则就行，不需要重写整个系统。

一句话总结：
EVM-QuestBench 是一个**“区块链界的驾校路考”**，它不再让 AI 在纸上谈兵，而是把它扔进真实的（模拟）交通流中，看它到底能不能安全、准确地把钱送到目的地。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation》的详细技术总结：

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）在软件开发和区块链交易场景中的应用日益广泛，链上交易的安全性成为一个关键挑战。

核心痛点：在区块链环境中，即使是微小的错误（如地址错误、单位换算失误、截止日期偏差）也可能导致用户资产发生不可逆的损失。
现有评估的局限性：
- 传统的代码生成评估（如 BLEU、CodeBLEU）主要依赖文本重叠度，无法验证代码是否真正可运行或满足功能约束。
- 现有的软件工程基准（如 SWE-bench）侧重于通用代码修复，缺乏对区块链特定约束（如交易构造、回滚条件、严格单位处理、协议前置依赖）的考量。
- 现有的区块链基准（如 Solana Bench）往往未能将“单交易精度”与“多步工作流完成度”在统一的执行和验证接口下解耦。

2. 方法论 (Methodology)

论文提出了 EVM-QuestBench，这是一个基于**执行落地（Execution-Grounded）**的基准测试，专门用于评估将自然语言指令转换为 EVM 兼容链（如 BSC）交易脚本的能力。

2.1 核心架构

系统采用模块化分层架构，包含以下关键组件：

任务定义层：任务以 JSON 格式定义，包含自然语言模板、参数定义和验证配置。
动态实例化层：
- 模板采样：从预构建池中随机选择自然语言指令模板。
- 参数动态生成：数值参数（如金额、代币数量）在预定义区间内随机采样，而非固定值。这防止了模型通过记忆训练数据中的特定模式来“作弊”，并测试其对任意数值的推理能力。
LLM 交互层：
- 原子任务 (Atomic)：单轮生成，模型直接输出完整的 TypeScript 模块。
- 复合任务 (Composite)：多轮交互。模型先进行子任务规划（分解为有序的子步骤，如 approve -> swap），然后迭代生成代码并执行，根据执行反馈（成功/失败/状态）调整后续步骤。
代码执行层：
- 运行在 Anvil 分叉的 BSC 主网（Chain ID 56）上。
- 快照隔离 (Snapshot Isolation)：每个任务执行前恢复快照，确保任务间互不干扰，起始状态一致。
- 模型仅生成代码，签名和广播由 Runner 在沙箱环境中完成，模型不接触私钥。
验证层 (Validators)：
- 基于执行后状态检查而非参考代码匹配。
- 验证器接收与指令相同的动态参数，检查交易是否成功、合约地址/函数签名是否正确、以及链上状态变化（如余额增减）是否符合预期。
- 引入容差机制（Tolerance），以应对 AMM 滑点或舍入误差。

2.2 任务构成

基准包含 107 个任务，分为两类：

原子任务 (Atomic, 62 个)：测试单步操作的精度。涵盖基础交易（转账、授权）、DeFi 操作（兑换、质押）及高级特性（回退处理、Flashloan）。
复合任务 (Composite, 45 个)：测试多步工作流的规划与执行。要求处理前置依赖（如先授权后兑换）、参数传递和步骤顺序。工作流步骤数为 2-6 步（平均 3.27 步）。

2.3 评分机制

原子评分：基于加权检查项（交易成功 30 分 + 地址正确 20 分 + 函数签名 20 分 + 状态变更验证 30 分），满分 100。
复合评分：基于最终状态是否达成，并引入步骤效率衰减因子。
- 公式： $S = S_{base} \cdot \min(1, \frac{K_{opt}}{K_{act}})$
- 其中 $K_{opt}$ 是最优步数， $K_{act}$ 是实际执行轮数。若模型步骤过多，分数会按比例衰减，以此惩罚低效规划。

3. 主要贡献 (Key Contributions)

首个 EVM 执行落地基准：发布了 EVM-QuestBench，专注于自然语言到交易脚本的生成，包含原子和复合两个子集。
低成本开发范式：提出了一种原子/复合任务范式，新任务开发仅需定义 JSON 和验证器，大幅降低了基准维护成本，且易于利用 LLM 辅助开发。
严格的执行协议：提供了具有快照隔离、固定 Runner 接口和基于验证器评分的端到端执行协议，确保评估的公平性和可复现性。
细粒度的模型评估：对 20 个模型进行了 5 轮独立评估，揭示了单步精度与多步工作流完成度之间的显著能力不对称性。

4. 实验结果 (Results)

研究评估了 20 个主流模型（包括 Claude, GPT, Gemini, DeepSeek, Qwen 等系列），每模型运行 5 轮。

总体表现：
- 表现最好的模型是 Claude-Sonnet-4.5，总分均值 8,236（满分 10,700），且方差极低（CV=2.1%）。
- 前 3 名模型总分均超过 7,700 分。
关键发现：能力不对称性 (Capability Asymmetry)：
- 工作流导向模型（如 DeepSeek-V3.2, Gemini-2.5-Flash）：在复合任务（Composite）上表现优异，但在原子任务（Atomic）上得分相对较低。这表明它们擅长多步规划和状态追踪，但单步细节精度稍弱。
- 精度导向模型（如 Claude-Haiku-4.5, Devstral-2512）：在原子任务上得分很高，但在复合任务上表现不佳。这反映了它们在处理多步依赖和长链条规划时的弱点。
- 代码专用模型的困境：部分代码专用模型（如 Qwen3-Coder 系列）在复合任务上得分接近于零，主要由于在多步交互中频繁出现接口错误（如缺少 ethers 导入、模块结构错误），导致无法完成工作流。
效率分析：顶级模型（如 Claude-Sonnet-4.5）在复合任务中的步骤效率达到 88.0%，平均完成 41/45 个任务；而底层模型平均步骤数超过 5.9，且通过率极低。

5. 意义与影响 (Significance)

安全评估新标准：EVM-QuestBench 填补了区块链自动化领域缺乏严格执行验证基准的空白，为评估 LLM 在金融敏感场景下的安全性提供了标准协议。
揭示模型能力边界：研究证明，能够生成正确单行代码的模型，并不一定能胜任复杂的多步链上交互。这提示开发者在构建链上 Agent 时，需针对“规划能力”和“状态一致性”进行专门优化，而非仅关注代码语法。
可扩展性：该架构已被证明可移植到其他链（如 Solana），为构建跨链智能体评估体系奠定了基础。
未来方向：基准计划扩展更多 EVM 链，增加更丰富的安全检查（如交易意图和副作用分析），并评估 LLM 生成任务定义本身的能力。

总结：EVM-QuestBench 通过动态参数化、快照隔离执行和基于状态的验证，建立了一个高保真的区块链交易生成评估环境。其核心发现是**“单步精度”与“多步规划”是两种不同的能力维度**，现有的大模型在这两者之间存在显著的性能割裂，这对未来链上智能体的开发具有重要的指导意义。