Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 EVM-QuestBench 的新工具,你可以把它想象成是给“人工智能(AI)”考的一场极其严格的“区块链交易实操大考”。
为了让你更容易理解,我们用几个生活中的比喻来拆解它:
1. 为什么要考这场试?(背景与痛点)
想象一下,你让一个非常聪明的AI 管家帮你去银行转账或者投资。
- 以前的考试:就像让 AI 写一份“转账计划书”。只要它写的字看起来像真的(比如格式对、用词专业),以前的考试就给它打高分。
- 现实的问题:在区块链世界里,“看起来像真的”没用,必须“真的能转出去”才行。如果 AI 把地址写错了一位,或者把金额的小数点搞错了,用户的钱就会永久丢失,而且无法撤回。
- 现在的困境:现有的考试太注重“文字相似度”,忽略了“能不能真的执行”。这就好比只检查菜谱写得漂不漂亮,却不检查厨师做出来的菜能不能吃。
2. EVM-QuestBench 是什么?(核心概念)
这是一个**“实战演练场”**。它不再让 AI 只写代码,而是让 AI 真的在区块链上“动真格”。
- 考场环境:它搭建了一个**“平行宇宙”**(技术叫“分叉链”)。在这个宇宙里,AI 的操作不会真的影响现实世界的钱,但操作的过程和结果和真的一模一样。
- 考题形式:
- 自然语言指令:考官(人类)用大白话出题,比如“把 0.1 个 ETH 换成 USDT"。
- AI 的任务:AI 必须听懂人话,然后写出能直接执行的代码(TypeScript 脚本)。
- 自动裁判:代码写好后,系统会自动运行。如果钱真的转对了,账户余额变了,就得分;如果转错了或者钱丢了,就零分。
3. 考试分两种难度(任务分类)
这场考试把题目分成了两类,就像游戏里的“新手村”和“副本”:
原子任务 (Atomic Tasks) —— “单点射击”
- 比喻:就像“给张三发 100 块钱”或者“买一张彩票”。
- 要求:只需要做一步动作。考的是 AI 的精准度。比如,能不能把小数点算对?能不能找到正确的收款人?
- 数量:62 道题。
复合任务 (Composite Tasks) —— “连环闯关”
- 比喻:就像“先给张三授权,再让他买彩票,最后把中奖的钱存进银行”。
- 要求:需要多步操作,而且每一步都要依赖上一步的结果。如果第一步授权失败,后面全都会失败。考的是 AI 的逻辑规划能力和记忆力。
- 数量:45 道题。
- 特殊规则:如果 AI 绕了弯路(比如本来 3 步能做完,它走了 5 步),分数会打折。这就像玩游戏,走捷径得分高,绕远路扣分。
4. 考试怎么保证公平?(动态出题)
为了防止 AI 靠“死记硬背”作弊,这个考试采用了**“随机生成”**机制:
- 比喻:以前的考试题目是固定的(比如“转 100 元”),AI 可能背过答案。现在的考试,每次出题时,金额、地址、时间都是随机抽取的(比如这次转 0.37 元,下次转 1000 元)。
- 效果:AI 必须真正理解“转账”的逻辑,而不是背答案。这就像每次考试都换一套随机生成的数学题,而不是考固定的应用题。
5. 考试结果怎么样?(发现与结论)
作者找了 20 个不同的 AI 模型来考试,结果发现了一个有趣的现象:
- 偏科现象严重:
- 有些 AI 是**“单点高手”**:做简单的单步转账非常准,但一遇到需要多步规划的复杂任务就“脑子短路”,完全乱套。
- 有些 AI 是**“规划大师”**:虽然偶尔会在简单的数字计算上犯错,但能很好地规划多步流程,把复杂任务做完。
- 有些 AI 是**“代码专家但不懂业务”**:它们写的代码语法完美,但在区块链的复杂规则(比如先授权再交易)面前,完全不知道该怎么操作,导致任务全部失败。
6. 总结:这篇论文的意义
这篇论文就像给 AI 行业立了一块**“新路标”**:
- 不再只看“写得像不像”:以后评价 AI 写代码,要看它**“能不能跑通”**。
- 安全至上:在涉及真金白银的区块链领域,任何小错误都是灾难。这个测试能帮我们要找出那些“看起来聪明但实际危险”的 AI。
- 模块化设计:这个考试系统很灵活,以后想加新题目(比如新的区块链玩法),只需要像搭积木一样加个新规则就行,不需要重写整个系统。
一句话总结:
EVM-QuestBench 是一个**“区块链界的驾校路考”**,它不再让 AI 在纸上谈兵,而是把它扔进真实的(模拟)交通流中,看它到底能不能安全、准确地把钱送到目的地。