EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

本文提出了 EVM-QuestBench,这是一个面向 EVM 兼容链的自然语言交易脚本生成执行落地基准,通过动态验证机制评估大语言模型在确保交易安全与执行准确性方面的表现,并揭示了模型在单步操作与多步工作流完成度之间的显著性能差异。

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EVM-QuestBench 的新工具,你可以把它想象成是给“人工智能(AI)”考的一场极其严格的“区块链交易实操大考”

为了让你更容易理解,我们用几个生活中的比喻来拆解它:

1. 为什么要考这场试?(背景与痛点)

想象一下,你让一个非常聪明的AI 管家帮你去银行转账或者投资。

  • 以前的考试:就像让 AI 写一份“转账计划书”。只要它写的字看起来像真的(比如格式对、用词专业),以前的考试就给它打高分。
  • 现实的问题:在区块链世界里,“看起来像真的”没用,必须“真的能转出去”才行。如果 AI 把地址写错了一位,或者把金额的小数点搞错了,用户的钱就会永久丢失,而且无法撤回。
  • 现在的困境:现有的考试太注重“文字相似度”,忽略了“能不能真的执行”。这就好比只检查菜谱写得漂不漂亮,却不检查厨师做出来的菜能不能吃。

2. EVM-QuestBench 是什么?(核心概念)

这是一个**“实战演练场”**。它不再让 AI 只写代码,而是让 AI 真的在区块链上“动真格”。

  • 考场环境:它搭建了一个**“平行宇宙”**(技术叫“分叉链”)。在这个宇宙里,AI 的操作不会真的影响现实世界的钱,但操作的过程和结果和真的一模一样。
  • 考题形式
    • 自然语言指令:考官(人类)用大白话出题,比如“把 0.1 个 ETH 换成 USDT"。
    • AI 的任务:AI 必须听懂人话,然后写出能直接执行的代码(TypeScript 脚本)。
    • 自动裁判:代码写好后,系统会自动运行。如果钱真的转对了,账户余额变了,就得分;如果转错了或者钱丢了,就零分。

3. 考试分两种难度(任务分类)

这场考试把题目分成了两类,就像游戏里的“新手村”和“副本”:

  • 原子任务 (Atomic Tasks) —— “单点射击”

    • 比喻:就像“给张三发 100 块钱”或者“买一张彩票”。
    • 要求:只需要做一步动作。考的是 AI 的精准度。比如,能不能把小数点算对?能不能找到正确的收款人?
    • 数量:62 道题。
  • 复合任务 (Composite Tasks) —— “连环闯关”

    • 比喻:就像“先给张三授权,再让他买彩票,最后把中奖的钱存进银行”。
    • 要求:需要多步操作,而且每一步都要依赖上一步的结果。如果第一步授权失败,后面全都会失败。考的是 AI 的逻辑规划能力记忆力
    • 数量:45 道题。
    • 特殊规则:如果 AI 绕了弯路(比如本来 3 步能做完,它走了 5 步),分数会打折。这就像玩游戏,走捷径得分高,绕远路扣分。

4. 考试怎么保证公平?(动态出题)

为了防止 AI 靠“死记硬背”作弊,这个考试采用了**“随机生成”**机制:

  • 比喻:以前的考试题目是固定的(比如“转 100 元”),AI 可能背过答案。现在的考试,每次出题时,金额、地址、时间都是随机抽取的(比如这次转 0.37 元,下次转 1000 元)。
  • 效果:AI 必须真正理解“转账”的逻辑,而不是背答案。这就像每次考试都换一套随机生成的数学题,而不是考固定的应用题。

5. 考试结果怎么样?(发现与结论)

作者找了 20 个不同的 AI 模型来考试,结果发现了一个有趣的现象:

  • 偏科现象严重
    • 有些 AI 是**“单点高手”**:做简单的单步转账非常准,但一遇到需要多步规划的复杂任务就“脑子短路”,完全乱套。
    • 有些 AI 是**“规划大师”**:虽然偶尔会在简单的数字计算上犯错,但能很好地规划多步流程,把复杂任务做完。
    • 有些 AI 是**“代码专家但不懂业务”**:它们写的代码语法完美,但在区块链的复杂规则(比如先授权再交易)面前,完全不知道该怎么操作,导致任务全部失败。

6. 总结:这篇论文的意义

这篇论文就像给 AI 行业立了一块**“新路标”**:

  1. 不再只看“写得像不像”:以后评价 AI 写代码,要看它**“能不能跑通”**。
  2. 安全至上:在涉及真金白银的区块链领域,任何小错误都是灾难。这个测试能帮我们要找出那些“看起来聪明但实际危险”的 AI。
  3. 模块化设计:这个考试系统很灵活,以后想加新题目(比如新的区块链玩法),只需要像搭积木一样加个新规则就行,不需要重写整个系统。

一句话总结
EVM-QuestBench 是一个**“区块链界的驾校路考”**,它不再让 AI 在纸上谈兵,而是把它扔进真实的(模拟)交通流中,看它到底能不能安全、准确地把钱送到目的地。