Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

本文提出了名为 Tool-Genesis 的诊断基准,旨在量化语言智能体仅凭抽象需求自主创建工具的能力,并揭示了当前最先进模型在一次性生成中因接口与逻辑的微小缺陷而导致下游任务性能急剧下降的问题。

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping Luo

发布于 Mon, 09 Ma
📖 2 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Tool-Genesis(工具创世纪) 的新项目。为了让你轻松理解,我们可以把现在的 AI 智能体(Agent)想象成一个刚入职的超级实习生,而这篇论文就是为这个实习生设计的一套**“从零开始造工具”的终极考核**。

1. 现在的困境:只会“点菜”,不会“做饭”

以前的情况:
想象一下,你让 AI 去订一张去北京的火车票。

  • 旧模式: 就像你手里已经有一张印好的菜单(API 文档),上面写着“火车票查询”、“订票”、“改签”三个选项。AI 只需要照着菜单点菜,填好参数(比如日期、车次),然后告诉服务员(调用接口)就行。
  • 问题: 如果菜单丢了、菜单上的菜名写错了、或者服务员突然换了个新系统,AI 就彻底懵了。它只会“点菜”,不会“做饭”。

现在的挑战:
现实世界很复杂,很多时候没有现成的菜单。我们需要 AI 具备**“自进化”**的能力:

  • 你只给它一个模糊的需求:“我想查一下从上海到北京的 G1234 次列车,然后买票,如果没票就改签下一趟。”
  • AI 必须自己发明一套“火车票工具”(写代码、定接口、做逻辑),然后才能去完成任务。

2. 现有的考试太“黑盒”了

以前的考试(Benchmark)主要看结果:

  • 考官问: “你买到票了吗?”
  • AI 答: “买到了!”(或者“没买到”)
  • 问题: 如果 AI 没买到票,我们不知道是因为它工具造错了(比如把“改签”写成了“退票”),还是因为它使用工具的方法不对(比如填错了日期)。这就叫“黑盒”,我们看不清它到底在哪一步摔了跟头。

3. Tool-Genesis:一场“全流程”的体检

这篇论文提出了 Tool-Genesis,它不再只看结果,而是给 AI 做了一次全方位的体检。它把造工具的过程拆解成了四个关卡,就像盖房子一样:

  • 第一关:图纸合规(L1 - 表面合规)

    • 比喻: 你让 AI 画一张“火车票系统”的图纸。这张图纸必须符合建筑规范(JSON Schema),不能是乱画的涂鸦。
    • 考核: 图纸能不能被机器读懂?能不能挂到服务器上运行?
  • 第二关:图纸精准度(L2 - 语义保真)

    • 比喻: 你的图纸上写的“改签”功能,是不是真的包含了改签需要的逻辑?还是说它其实画的是“退票”?
    • 考核: 对比 AI 画的图和标准答案,看名字对不对、参数全不全。
  • 第三关:功能测试(L3 - 功能正确性)

    • 比喻: 拿着图纸去盖房子,然后进行压力测试
      • 普通测试: 正常买票,通不通?
      • 极限测试(负向测试): 故意输入错误的日期、不存在的车次,系统会不会崩溃?会不会乱报错?
    • 考核: 只有通过了所有“找茬”测试,才算合格。
  • 第四关:实战演练(L4 - 下游效用)

    • 比喻: 最后,让另一个 AI(代理)拿着这套新造的工具,去真正完成“买票”的任务。
    • 考核: 任务成功了吗?如果成功了,是因为工具好,还是因为运气好?

4. 惊人的发现:天才也会“翻车”

论文作者测试了目前世界上最强的 AI 模型(包括 GPT-4o, Claude, Qwen3 等),发现了一个残酷的真相

  • 一锤定音很难: 即使是最聪明的 AI,如果只给它一次机会(One-shot),让它直接造工具,它几乎都会犯小错误
    • 比如:把参数类型搞错(把数字当成了文字),或者漏掉了一个必填项。
  • 蝴蝶效应: 这些微小的初始错误,就像多米诺骨牌的第一张。
    • 图纸画错一点点 -> 代码跑不通 -> 任务彻底失败。
    • 结果就是:AI 在“造工具”这一步就崩了,导致后面再努力也没用,任务成功率断崖式下跌。

5. 解决方案:像“修 bug"一样迭代

论文发现,如果给 AI 一个**“闭环修复”**的机会(Code-Agent 模式):

  • 流程: AI 造工具 -> 运行报错 -> AI 看到错误 -> AI 自己修改代码 -> 再运行。
  • 效果: 这种“试错 - 修正”的过程,能让 AI 的表现突飞猛进
    • 原本只有 10% 的成功率,经过几轮自我修复后,能提升到 60% 甚至更高。
    • 这说明 AI 不是不会造工具,而是缺乏自我检查和修正的能力

6. 总结与意义

Tool-Genesis 就像是一个**“工具制造工厂”的质检中心**。

  • 以前: 我们只关心产品(任务结果)卖没卖出去。
  • 现在: 我们开始关心生产线(造工具的过程)哪里出了问题。

它的核心贡献是:

  1. 不再依赖现成菜单: 逼迫 AI 学会从模糊需求中“无中生有”地创造工具。
  2. 拒绝黑盒: 把失败原因拆解清楚,是图纸错了?还是代码写错了?
  3. 推动进化: 告诉未来的 AI 研究者,要想让 AI 真正像人类一样工作,不能只教它“怎么用工具”,更要教它**“怎么造工具”以及“怎么修工具”**。

一句话总结:
这篇论文给 AI 出了一道新考题:“别只当个只会点菜的顾客,给我造一套能自动点菜的厨房系统,并且要经得起折腾!” 而测试发现,现在的 AI 虽然聪明,但在这个“从无到有”的创造过程中,还很容易因为一点小失误而全盘皆输,需要学会“边做边改”才能真正进化。