One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

该论文提出了名为 ScaleZero 的统一多任务规划模型,通过引入混合专家(MoE)架构缓解梯度冲突,并结合动态参数缩放(DPS)策略实现自适应容量分配,从而在仅需 71.5% 环境交互的情况下,实现了与专用单任务智能体相当的性能。

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ScaleZero 的新人工智能模型。简单来说,它的目标是打造一个“全能选手”,让同一个 AI 大脑能够同时学会玩各种完全不同的游戏(比如从简单的乒乓球到复杂的文字冒险),而且学得又快又好。

为了让你更容易理解,我们可以把这篇论文的核心思想想象成一家超级繁忙的“全能餐厅”

1. 以前的困境:一个厨师做所有菜(UniZero)

想象一下,以前有一种很厉害的餐厅(叫 UniZero),它只有一个全能主厨

  • 问题出在哪? 这个主厨既要炒简单的“番茄炒蛋”(像《Pong》这种简单游戏),又要炖复杂的“佛跳墙”(像《Seaquest》这种需要长期规划的游戏)。
  • 发生了什么? 当主厨忙着炒简单的菜时,他很容易把炖佛跳墙的汤给忘了,或者把炖汤的精力都用来炒蛋了。结果就是:简单的菜做得很好,但复杂的菜要么做不好,要么做着做着就“崩溃”了,主厨甚至开始“失忆”,忘了怎么炖汤。
  • 学术术语叫: 梯度冲突(Gradient Conflicts)和 可塑性崩溃(Plasticity Collapse)。意思是:不同任务的学习信号打架了,导致大脑“僵化”,学不动新东西了。

2. 解决方案一:ScaleZero 的“专家后厨” (MoE 架构)

为了解决这个问题,作者把餐厅改造成了ScaleZero

  • 核心改变: 不再只有一个全能主厨,而是建立了一个**“专家后厨” (Mixture-of-Experts, MoE)**。
  • 怎么运作?
    • 餐厅里有一个智能调度员(Router)
    • 当客人点“番茄炒蛋”时,调度员立刻把单子派给**“快手炒锅组”**(专门处理简单任务)。
    • 当客人点“佛跳墙”时,调度员把单子派给**“慢炖大师组”**(专门处理复杂任务)。
    • 虽然大家都在同一个大厨房里工作,但互不干扰。炒蛋的油烟不会熏到炖汤的大师,炖汤的慢节奏也不会拖慢炒蛋的速度。
  • 效果: 这样,AI 就能同时保持“炒蛋”的敏捷和“炖汤”的深度,不会因为任务太多而“脑子短路”。

3. 解决方案二:动态扩容 (DPS 策略)

光有专家还不够,如果所有专家一直都在忙,餐厅还是转不动。于是作者还加了一个**“动态扩容” (Dynamic Parameter Scaling, DPS)** 的策略。

  • 以前的做法: 不管客人多不多,餐厅一直开着 100 个厨师,哪怕只有 1 个客人,也要付 100 个人的工资(浪费资源)。
  • DPS 的做法:
    • 阶段一(热身): 先让所有厨师一起学基础(比如怎么切菜、怎么拿锅),建立通用的基本功。
    • 阶段二(按需招人): 当发现“炒蛋”已经做得很完美了(任务解决了),就冻结这部分厨师,让他们休息,不再消耗精力。
    • 阶段三(精准投入): 把省下来的精力和预算,专门用来招聘和培训新的“特型厨师”(LoRA 适配器),专门去攻克那些还没学会的、特别难的“佛跳墙”任务。
  • 比喻: 就像你学开车,先练好基础(方向盘、刹车),等基础扎实了,就不需要再花时间去练怎么握方向盘了,而是把精力集中在“如何在暴雨天开车”这种高难度技能上。
  • 成果: 这种方法让 AI 用更少的数据(少跑了 28.5% 的路) 就达到了和那些“专门只练一个游戏的专家”一样的水平。

4. 总结:ScaleZero 有多强?

作者在三个完全不同的领域测试了 ScaleZero:

  1. 街机游戏 (Atari): 从简单的打乒乓球到复杂的太空射击。
  2. 机器人控制 (DMC): 让虚拟机器人学会走路、跑步、保持平衡。
  3. 文字冒险 (Jericho): 让 AI 读懂复杂的文字故事,做出正确的剧情选择。

最终结果:

  • 一个模型打天下: 只用一个模型,就搞定了所有任务。
  • 不输专家: 它的表现和那些“专门只练一个游戏的专家”一样好,甚至在很多复杂任务上更强。
  • 省钱省力: 配合“动态扩容”策略,它比传统方法少用了近 30% 的练习时间。

一句话总结

这篇论文就像是在说:我们不再让一个“累死累活”的万能天才去硬扛所有工作,而是建立了一个智能调度系统,让不同的专家各司其职,并且根据难度动态分配人手。这样,AI 就能既聪明又高效地学会所有技能,真正迈向“通用人工智能”的目标。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →