EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

本文提出了 EvoTool 框架,通过基于轨迹归因的故障定位、反馈引导的针对性变异以及多样性感知的种群选择这三种机制,以无梯度进化范式优化大模型智能体的模块化工具使用策略,从而在多个基准测试中显著超越了现有基线方法。

Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EVOTOOL 的新系统,它的核心目标是让大型人工智能(LLM)变得更聪明、更擅长使用各种“工具”(比如搜索网络、调用数据库、查询天气等)来解决复杂问题。

为了让你轻松理解,我们可以把 AI 使用工具的过程想象成一家正在接单的“超级快递公司”

1. 背景:快递公司的困境

现在的 AI 就像一家刚成立的快递公司,它手里有很多工具(卡车、无人机、地图、仓库系统)。但是,当它接到一个复杂的订单(比如“帮我把这箱易碎品从北京送到上海,还要在途中买杯咖啡”)时,它经常搞砸。

  • 问题出在哪?
    • 只给最终结果,不给过程反馈: 就像客户只告诉你“包裹没送到”或“送错了”,却不说具体是司机开错了路、选错了车,还是仓库打包错了。AI 很难知道具体哪个环节出了问题。
    • 以前的方法太笨:
      • 方法 A(整体优化): 以前有人试图把整个公司的所有流程(规划、选车、打包、送货)一次性全部重写。结果往往是“拆东墙补西墙”,修好了打包问题,却把送货路线搞乱了。
      • 方法 B(单点优化): 也有人只盯着某一个环节改(比如只改规划),却忽略了环节之间的配合。如果规划对了,但选错了车,任务依然会失败。

2. EVOTOOL 的解决方案:智能进化团队

EVOTOOL 就像给这家快递公司配备了一个**“超级进化教练”**。它不直接改代码,而是通过一种“自我进化”的循环来训练员工。它把快递流程拆成了四个专门的部门:

  1. 规划部 (Planner): 拆解任务,制定路线图。
  2. 选择部 (Selector): 决定用哪辆车、哪个工具。
  3. 呼叫部 (Caller): 具体操作工具(比如真的去发指令叫车)。
  4. 合成部 (Synthesizer): 把最后的结果整理好,告诉客户。

这个系统通过三个“独门秘籍”来进化:

秘籍一:精准“背锅” (Blame Attribution)

  • 比喻: 当包裹送错了,教练不会盲目地骂所有人,也不会只骂一个人。它会调取行车记录仪(轨迹诊断),仔细分析:
    • 是规划部路线画错了?
    • 是选择部选了辆装不下货的三轮车?
    • 还是呼叫部把地址填错了?
  • 作用: 系统能精准地指出:“这次失败,90% 的锅在‘选择部’,因为它选错了工具。”这样就能避免误伤其他部门。

秘籍二:定向“整容” (Targeted Mutation)

  • 比喻: 既然找到了“背锅侠”(比如选择部),教练就只给这个部门发一份**“修改建议书”**(自然语言反馈)。
    • 建议书会写:“你上次选错了车,下次遇到‘易碎品’,必须选‘带减震的卡车’,不要选‘普通货车’。”
    • 然后,系统只修改“选择部”的指令,其他三个部门(规划、呼叫、合成)完全不动,保持原样。
  • 作用: 这样既修正了错误,又不会破坏其他部门已经做得很好的工作。

秘籍三:保留“多样性” (Diversity-Aware Selection)

  • 比喻: 在进化过程中,如果只选“平均分最高”的那个方案,可能会导致所有员工都变成同一种性格(比如都太保守),一旦遇到特殊天气(特殊任务)就全挂了。
  • 作用: EVOTOOL 会故意保留一些**“特长生”**。
    • 有的方案擅长处理简单任务,有的擅长处理复杂长流程。
    • 系统会问:“在这个任务上,谁赢了?”而不是“谁平均分最高?”。
    • 这样,整个团队就既有“全能王”,又有“特种兵”,能应对各种奇葩任务。

3. 实验结果:效果惊人

研究人员在四个不同的“考试”(基准测试)中测试了这个系统:

  • 成绩: 无论是用最强的闭源模型(GPT-4.1)还是开源模型(Qwen3-8B),EVOTOOL 的成绩都比以前的最佳方法高出 5 分以上(满分 100 的话,这是巨大的飞跃)。
  • 效率: 它更省“脑子”(Token 消耗更少),因为它只改需要改的地方,不像以前那样盲目地全盘重来。
  • 迁移能力: 在 A 任务上学到的经验,能很好地用到 B 任务上,说明它真的学会了“举一反三”。

总结

简单来说,EVOTOOL 就是给 AI 装上了一个**“精准诊断 + 定向手术 + 多元人才库”**的进化系统。

它不再让 AI 像无头苍蝇一样盲目尝试,而是像一位经验丰富的老中医:

  1. 望闻问切(分析轨迹,找出具体病因);
  2. 对症下药(只修改出问题的模块);
  3. 广纳贤才(保留不同的解题思路)。

这让 AI 在处理复杂、长期的任务时,变得更加可靠、聪明和高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →