EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EVOTOOL 的新系统，它的核心目标是让大型人工智能（LLM）变得更聪明、更擅长使用各种“工具”（比如搜索网络、调用数据库、查询天气等）来解决复杂问题。

为了让你轻松理解，我们可以把 AI 使用工具的过程想象成一家正在接单的“超级快递公司”。

1. 背景：快递公司的困境

现在的 AI 就像一家刚成立的快递公司，它手里有很多工具（卡车、无人机、地图、仓库系统）。但是，当它接到一个复杂的订单（比如“帮我把这箱易碎品从北京送到上海，还要在途中买杯咖啡”）时，它经常搞砸。

问题出在哪？
- 只给最终结果，不给过程反馈： 就像客户只告诉你“包裹没送到”或“送错了”，却不说具体是司机开错了路、选错了车，还是仓库打包错了。AI 很难知道具体哪个环节出了问题。
- 以前的方法太笨：
  - 方法 A（整体优化）： 以前有人试图把整个公司的所有流程（规划、选车、打包、送货）一次性全部重写。结果往往是“拆东墙补西墙”，修好了打包问题，却把送货路线搞乱了。
  - 方法 B（单点优化）： 也有人只盯着某一个环节改（比如只改规划），却忽略了环节之间的配合。如果规划对了，但选错了车，任务依然会失败。

2. EVOTOOL 的解决方案：智能进化团队

EVOTOOL 就像给这家快递公司配备了一个**“超级进化教练”**。它不直接改代码，而是通过一种“自我进化”的循环来训练员工。它把快递流程拆成了四个专门的部门：

规划部 (Planner)： 拆解任务，制定路线图。
选择部 (Selector)： 决定用哪辆车、哪个工具。
呼叫部 (Caller)： 具体操作工具（比如真的去发指令叫车）。
合成部 (Synthesizer)： 把最后的结果整理好，告诉客户。

这个系统通过三个“独门秘籍”来进化：

秘籍一：精准“背锅” (Blame Attribution)

比喻： 当包裹送错了，教练不会盲目地骂所有人，也不会只骂一个人。它会调取行车记录仪（轨迹诊断），仔细分析：
- 是规划部路线画错了？
- 是选择部选了辆装不下货的三轮车？
- 还是呼叫部把地址填错了？
作用： 系统能精准地指出：“这次失败，90% 的锅在‘选择部’，因为它选错了工具。”这样就能避免误伤其他部门。

秘籍二：定向“整容” (Targeted Mutation)

比喻： 既然找到了“背锅侠”（比如选择部），教练就只给这个部门发一份**“修改建议书”**（自然语言反馈）。
- 建议书会写：“你上次选错了车，下次遇到‘易碎品’，必须选‘带减震的卡车’，不要选‘普通货车’。”
- 然后，系统只修改“选择部”的指令，其他三个部门（规划、呼叫、合成）完全不动，保持原样。
作用： 这样既修正了错误，又不会破坏其他部门已经做得很好的工作。

秘籍三：保留“多样性” (Diversity-Aware Selection)

比喻： 在进化过程中，如果只选“平均分最高”的那个方案，可能会导致所有员工都变成同一种性格（比如都太保守），一旦遇到特殊天气（特殊任务）就全挂了。
作用： EVOTOOL 会故意保留一些**“特长生”**。
- 有的方案擅长处理简单任务，有的擅长处理复杂长流程。
- 系统会问：“在这个任务上，谁赢了？”而不是“谁平均分最高？”。
- 这样，整个团队就既有“全能王”，又有“特种兵”，能应对各种奇葩任务。

3. 实验结果：效果惊人

研究人员在四个不同的“考试”（基准测试）中测试了这个系统：

成绩： 无论是用最强的闭源模型（GPT-4.1）还是开源模型（Qwen3-8B），EVOTOOL 的成绩都比以前的最佳方法高出 5 分以上（满分 100 的话，这是巨大的飞跃）。
效率： 它更省“脑子”（Token 消耗更少），因为它只改需要改的地方，不像以前那样盲目地全盘重来。
迁移能力： 在 A 任务上学到的经验，能很好地用到 B 任务上，说明它真的学会了“举一反三”。

总结

简单来说，EVOTOOL 就是给 AI 装上了一个**“精准诊断 + 定向手术 + 多元人才库”**的进化系统。

它不再让 AI 像无头苍蝇一样盲目尝试，而是像一位经验丰富的老中医：

望闻问切（分析轨迹，找出具体病因）；
对症下药（只修改出问题的模块）；
广纳贤才（保留不同的解题思路）。

这让 AI 在处理复杂、长期的任务时，变得更加可靠、聪明和高效。

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

1. 背景：快递公司的困境

2. EVOTOOL 的解决方案：智能进化团队

秘籍一：精准“背锅” (Blame Attribution)

秘籍二：定向“整容” (Targeted Mutation)

秘籍三：保留“多样性” (Diversity-Aware Selection)

3. 实验结果：效果惊人

总结

EVOTOOL 论文技术总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 模块化策略架构

2.2 核心机制

(1) 轨迹 grounded 的归因机制 (Trajectory-Grounded Blame Attribution)

(2) 反馈引导的定向变异 (Feedback-Guided Targeted Mutation)

(3) 多样性感知的种群选择 (Diversity-Aware Population Selection)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

1. 背景：快递公司的困境

2. EVOTOOL 的解决方案：智能进化团队

秘籍一：精准“背锅” (Blame Attribution)

秘籍二：定向“整容” (Targeted Mutation)

秘籍三：保留“多样性” (Diversity-Aware Selection)

3. 实验结果：效果惊人

总结

EVOTOOL 论文技术总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 模块化策略架构

2.2 核心机制

(1) 轨迹 grounded 的归因机制 (Trajectory-Grounded Blame Attribution)

(2) 反馈引导的定向变异 (Feedback-Guided Targeted Mutation)

(3) 多样性感知的种群选择 (Diversity-Aware Population Selection)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems