DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

该论文提出了名为 DIVE 的实证驱动方法,通过“先执行真实工具再逆向推导任务”的机制来规模化合成任务的多样性,从而显著提升了智能体在未见工具集和任务场景下的泛化能力,并证明了多样性扩展比单纯增加数据量更能有效改善泛化效果。

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DIVE 的新方法,旨在解决人工智能(AI)助手在使用各种工具(如搜索、查数据、写代码)时“只会死记硬背,不会灵活变通”的难题。

为了让你轻松理解,我们可以把训练 AI 使用工具的过程,想象成培养一名“全能侦探”

1. 以前的做法:只练“固定套路”的侦探

以前的训练方法(就像以前的侦探学校)是这样的:

  • 做法:老师只给侦探布置一种类型的案子(比如“查天气”),并且只给一把固定的钥匙(比如“只用搜索引擎”)。
  • 问题:侦探练得滚瓜烂熟,一旦遇到“查股票”或者“查病历”这种新案子,或者需要同时用“计算器 + 数据库”这种新组合时,侦探就懵了。
  • 比喻:这就像教一个人只会在一条固定的路线上开车。一旦路变了,或者需要换辆车,他就不会开了。而且,很多训练数据是“编”出来的,老师自己都没验证过这条路能不能走通,结果侦探练了半天,真遇到案子发现路是断的。

2. DIVE 的核心思想:先“实地演练”,再“出题考试”

DIVE 提出了一种**“倒序训练法”**,它的逻辑非常反直觉但很聪明:

  • 以前的逻辑:先出题(比如“帮我查个药”) -> 再试着去执行 -> 发现不行就扔掉 -> 再换一道题。
  • DIVE 的逻辑先让 AI 去真实世界里乱跑(执行各种工具) -> 收集它跑出来的真实结果(证据) -> 根据这些真实结果,反推出一个合理的题目。

🌰 举个生动的例子:
想象你在教一个学生做数学题。

  • 旧方法:你先想好一道题“如果苹果 3 元,买 5 个多少钱?”,然后让学生算。如果学生算错了,或者发现苹果其实没货了,这道题就废了。
  • DIVE 方法:你先让学生去真实的超市(真实工具池)里逛一圈。
    1. 学生真的去查了苹果价格(工具 A)。
    2. 真的去查了香蕉价格(工具 B)。
    3. 真的去算了总价(工具 C)。
    4. 最后,你看着学生手里拿到的真实购物小票(证据),反推出一道题:“根据刚才的购物小票,如果我要买 5 个苹果和 2 个香蕉,一共多少钱?”
  • 好处:因为题目是基于真实发生的事情生成的,所以这道题绝对有解,而且答案绝对正确。学生练的每一个案例,都是真实世界验证过的。

3. DIVE 是怎么做到“多样性”的?

为了让这个“全能侦探”什么案子都能破,DIVE 做了两件事:

  1. 扩大“武器库”:它不再只用“搜索引擎”这一把钥匙。它准备了 373 种不同的工具,涵盖了金融、医疗、生物、学术等 5 个领域。就像给侦探配了全套装备:有显微镜、有计算器、有地图、有密码破译器。
  2. 随机组合“任务包”:它不是只练“查药”,而是随机组合。比如:“先查一种药的成分(生物工具),再查这种药在哪个医院有货(医疗工具),最后算一下价格(金融工具)”。这种随机组合让 AI 学会了如何灵活地把不同的工具串联起来。

4. 结果怎么样?

论文做了大量实验,把用 DIVE 训练的 AI(Qwen3-8B)和其他模型对比:

  • 以前:AI 在熟悉的题目上表现不错,但换个新环境(比如从查新闻变成查病历)就彻底“翻车”。
  • 现在:用 DIVE 训练的 AI,哪怕数据量只有别人的 1/4,泛化能力却强了 68%
  • 比喻:以前的 AI 像是“背题机器”,换个考场就挂科;DIVE 训练的 AI 像是“实战专家”,不管考题怎么变,只要给工具,它就能现场推理出答案。

总结

DIVE 的核心秘诀就是:
不要凭空想象题目去训练 AI,而是先让 AI 在真实世界里“跑”出真实的轨迹,再根据这些真实的轨迹“倒推”出题目

这就好比先让厨师在真实的厨房里,用真实的食材炒出一盘好菜,然后记录过程,再根据这个真实过程教学生做菜,而不是让学生对着空气比划“如果我有鸡蛋和油,该怎么炒”。

这种方法让 AI 不仅学会了“怎么做”,更学会了“在什么情况下用什么工具”,从而真正成为了一个能应对各种复杂现实任务的通用智能体