One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ScaleZero 的新人工智能模型。简单来说，它的目标是打造一个“全能选手”，让同一个 AI 大脑能够同时学会玩各种完全不同的游戏（比如从简单的乒乓球到复杂的文字冒险），而且学得又快又好。

为了让你更容易理解，我们可以把这篇论文的核心思想想象成一家超级繁忙的“全能餐厅”。

1. 以前的困境：一个厨师做所有菜（UniZero）

想象一下，以前有一种很厉害的餐厅（叫 UniZero），它只有一个全能主厨。

问题出在哪？ 这个主厨既要炒简单的“番茄炒蛋”（像《Pong》这种简单游戏），又要炖复杂的“佛跳墙”（像《Seaquest》这种需要长期规划的游戏）。
发生了什么？ 当主厨忙着炒简单的菜时，他很容易把炖佛跳墙的汤给忘了，或者把炖汤的精力都用来炒蛋了。结果就是：简单的菜做得很好，但复杂的菜要么做不好，要么做着做着就“崩溃”了，主厨甚至开始“失忆”，忘了怎么炖汤。
学术术语叫： 梯度冲突（Gradient Conflicts）和可塑性崩溃（Plasticity Collapse）。意思是：不同任务的学习信号打架了，导致大脑“僵化”，学不动新东西了。

2. 解决方案一：ScaleZero 的“专家后厨” (MoE 架构)

为了解决这个问题，作者把餐厅改造成了ScaleZero。

核心改变： 不再只有一个全能主厨，而是建立了一个**“专家后厨” (Mixture-of-Experts, MoE)**。
怎么运作？
- 餐厅里有一个智能调度员（Router）。
- 当客人点“番茄炒蛋”时，调度员立刻把单子派给**“快手炒锅组”**（专门处理简单任务）。
- 当客人点“佛跳墙”时，调度员把单子派给**“慢炖大师组”**（专门处理复杂任务）。
- 虽然大家都在同一个大厨房里工作，但互不干扰。炒蛋的油烟不会熏到炖汤的大师，炖汤的慢节奏也不会拖慢炒蛋的速度。
效果： 这样，AI 就能同时保持“炒蛋”的敏捷和“炖汤”的深度，不会因为任务太多而“脑子短路”。

3. 解决方案二：动态扩容 (DPS 策略)

光有专家还不够，如果所有专家一直都在忙，餐厅还是转不动。于是作者还加了一个**“动态扩容” (Dynamic Parameter Scaling, DPS)** 的策略。

以前的做法： 不管客人多不多，餐厅一直开着 100 个厨师，哪怕只有 1 个客人，也要付 100 个人的工资（浪费资源）。
DPS 的做法：
- 阶段一（热身）： 先让所有厨师一起学基础（比如怎么切菜、怎么拿锅），建立通用的基本功。
- 阶段二（按需招人）： 当发现“炒蛋”已经做得很完美了（任务解决了），就冻结这部分厨师，让他们休息，不再消耗精力。
- 阶段三（精准投入）： 把省下来的精力和预算，专门用来招聘和培训新的“特型厨师”（LoRA 适配器），专门去攻克那些还没学会的、特别难的“佛跳墙”任务。
比喻： 就像你学开车，先练好基础（方向盘、刹车），等基础扎实了，就不需要再花时间去练怎么握方向盘了，而是把精力集中在“如何在暴雨天开车”这种高难度技能上。
成果： 这种方法让 AI 用更少的数据（少跑了 28.5% 的路） 就达到了和那些“专门只练一个游戏的专家”一样的水平。

4. 总结：ScaleZero 有多强？

作者在三个完全不同的领域测试了 ScaleZero：

街机游戏 (Atari)： 从简单的打乒乓球到复杂的太空射击。
机器人控制 (DMC)： 让虚拟机器人学会走路、跑步、保持平衡。
文字冒险 (Jericho)： 让 AI 读懂复杂的文字故事，做出正确的剧情选择。

最终结果：

一个模型打天下： 只用一个模型，就搞定了所有任务。
不输专家： 它的表现和那些“专门只练一个游戏的专家”一样好，甚至在很多复杂任务上更强。
省钱省力： 配合“动态扩容”策略，它比传统方法少用了近 30% 的练习时间。

一句话总结

这篇论文就像是在说：我们不再让一个“累死累活”的万能天才去硬扛所有工作，而是建立了一个智能调度系统，让不同的专家各司其职，并且根据难度动态分配人手。这样，AI 就能既聪明又高效地学会所有技能，真正迈向“通用人工智能”的目标。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

在异构多任务决策（Heterogeneous Multi-task Decision-making）中，任务不仅具有不同的观测和动作空间，其底层复杂性也差异巨大。现有的统一世界模型（如 UniZero）虽然在单任务设置下表现优异，但在处理广泛且多样的任务集时面临两大核心挑战：

表示瓶颈与可塑性崩溃 (Representational Bottlenecks & Plasticity Collapse)：
- 在共享参数的统一模型中，简单、收敛快的任务产生的梯度会主导更新，抑制复杂任务的信号。
- 这导致表示干扰 (Representation Interference)，使得模型无法维持多样化的特征。
- 最终导致可塑性崩溃：网络中大量神经元变为“休眠”（Dormant Neurons），潜在状态范数（Latent State Norm）失控膨胀，模型失去适应新数据的能力，导致在复杂任务上性能灾难性下降。
静态资源分配 (Static Resource Allocation)：
- 传统架构对所有任务采用“一刀切”的前向传播和更新策略。
- 无论任务难度如何，都分配相同的计算资源（数据收集、模型更新），导致在已收敛任务上浪费资源，而在困难任务上资源不足。

2. 方法论 (Methodology)

作者从**单次学习迭代（内部架构）和整体学习过程（外部策略）**两个互补视角提出了解决方案，构建了 ScaleZero 模型并引入了 动态参数缩放 (DPS) 策略。

2.1 核心架构：ScaleZero

ScaleZero 基于 UniZero 进行系统性改进，旨在解决梯度冲突和可塑性崩溃：

混合专家模型 (Mixture-of-Experts, MoE) 骨干网络：
- 将 Transformer 骨干中的密集前馈网络（Dense FFN）替换为稀疏 MoE 层。
- 机制： 通过门控机制（Gating），将特定任务的表示路由到专用的专家子网络。
- 作用： 从理论上和实验上证明，MoE 通过条件计算（Conditional Computation）显著降低了任务间的梯度冲突上限，缓解了表示干扰，保持了神经网络的活跃度和可塑性。
编码器与归一化：
- 采用 ViT (Vision Transformer) 作为视觉编码器（针对 Atari），替代了 ResNet。
- 使用标准的 LayerNorm 替代 SimNorm，以在稳定性和表示表达能力之间取得更好的平衡。
模块化设计： 解耦特定任务的编码器和输出头，以灵活处理多模态输入。

2.2 训练策略：动态参数缩放 (Dynamic Parameter Scaling, DPS)

为了解决静态资源分配问题，提出了一种在线自适应机制：

自适应任务策展 (Adaptive Task Curation)： 动态维护一个“未解决任务集”。一旦任务性能达到阈值，即视为“已解决”，停止对该任务进行数据收集和梯度更新，从而节省计算资源。
分阶段容量扩展 (Staged Capacity Expansion)：
- 预热阶段 (Stage 0)： 训练共享的基础模型（Base Model），学习通用表示。
- 扩展阶段 (Stage s ≥ 1)： 根据学习进度，逐步注入轻量级的 LoRA (Low-Rank Adaptation) 适配器。
- 参数隔离： 新阶段引入的 LoRA 模块独立训练，之前的参数（基础模型和旧适配器）被冻结。
- 可学习缩放因子： 引入可学习的缩放系数 $\alpha$ ，动态调整基础模型和各个适配器对最终输出的贡献权重。
优势： 实现了“模型复杂度课程”，将计算资源精准导向未解决的任务，同时防止灾难性遗忘。

3. 主要贡献 (Key Contributions)

量化诊断： 首次在世界模型的多任务强化学习（MTRL）中，定量诊断了“可塑性崩溃”现象，建立了外部性能下降与内部学习动态（如休眠神经元比例激增、潜在状态范数膨胀）之间的直接联系。
ScaleZero 架构： 提出了一种统一的世界模型架构，通过引入稀疏 MoE 骨干网络，在三个截然不同的基准（Atari, DMC, Jericho）上实现了卓越的性能和泛化能力。
DPS 策略： 提出了动态参数缩放策略，能够自适应地分配模型容量和计算资源。
理论与实证分析： 提供了关于 MoE 缓解梯度冲突的理论证明（上界分析）和实证证据，解释了其在多任务规划中的有效性。

4. 实验结果 (Results)

实验在纯在线强化学习设置下进行，未使用专家数据：

Atari 100k (26 个游戏)：
- ScaleZero (单模型) 的平均人类归一化分数 (Mean HNS) 超越了 26 个独立训练的单任务 UniZero 专家模型的平均值。
- 在极具挑战性的探索型游戏（如 Seaquest）上表现尤为突出，解决了基线模型的性能崩溃问题。
DeepMind Control Suite (18 个连续控制任务)：
- ScaleZero 的中位数分数优于单任务基线，证明了其在连续控制领域的鲁棒泛化能力。
Jericho (4 个文本冒险游戏)：
- 在文本模态下，ScaleZero 的表现与专用单任务代理及强大的语言模型基线 (CALM+OC) 相当，证明了其模态无关性。
效率评估 (DPS)：
- 在 DMC 基准上，结合 DPS 策略的 ScaleZero 仅需 71.5% 的环境交互次数即可达到与标准 ScaleZero 相当的性能。
- 这意味着在保持性能的同时，减少了约 28.5% 的数据采样和训练成本。

5. 意义与影响 (Significance)

通用智能体 (Generalist Agents) 的突破： 该工作证明了单一模型可以通过合理的架构设计（MoE）和训练策略（DPS），有效处理高度异构的任务，打破了多任务学习中“性能与效率难以兼得”的困境。
解决可塑性崩溃： 为多任务强化学习中的“灾难性遗忘”和“可塑性丧失”问题提供了新的架构级解决方案，强调了条件计算在维持网络动态健康中的关键作用。
资源效率： DPS 策略为在线多任务学习提供了一种动态资源管理的新范式，显著降低了训练成本，使得在有限计算预算下训练更强大的通用智能体成为可能。
开源贡献： 代码已开源，推动了基于蒙特卡洛树搜索（MCTS）的通用世界模型研究。

总结： 这篇论文通过引入 ScaleZero（基于 MoE 的统一世界模型）和 DPS（动态参数缩放），成功解决了多任务规划中的梯度冲突和可塑性崩溃问题，实现了在视觉、状态控制和文本三种不同模态下，单模型性能媲美甚至超越多个专用单任务代理，同时大幅提升了样本效率。

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

1. 以前的困境：一个厨师做所有菜（UniZero）

2. 解决方案一：ScaleZero 的“专家后厨” (MoE 架构)

3. 解决方案二：动态扩容 (DPS 策略)

4. 总结：ScaleZero 有多强？

一句话总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心架构：ScaleZero

2.2 训练策略：动态参数缩放 (Dynamic Parameter Scaling, DPS)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression