Beyond Language Modeling: An Exploration of Multimodal Pretraining

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在讲述一个关于**“如何教 AI 真正看懂世界，而不仅仅是读懂文字”**的冒险故事。

以前的 AI（大语言模型）就像是一个博学的图书管理员。它读过世界上所有的书，能写出优美的文章，也能回答复杂的问题。但是，它从未真正“见过”书里描述的世界。它知道“苹果”这个词，知道苹果是红色的、圆的，但它没见过真实的苹果，也不懂苹果从树上掉下来时的物理规律。它就像柏拉图洞穴寓言里的人，只能看到墙上的影子（文字），却看不到真实的物体。

这篇论文的研究团队（来自 Meta FAIR 和纽约大学）决定打破这个局限，他们想造一个**“既能读又能看，还能动手”**的超级 AI。他们从零开始训练，没有借用任何现成的“图书管理员”底子，而是让 AI 直接面对文字、图片、视频甚至动作指令。

以下是他们发现的四个关键“秘密武器”：

1. 统一的语言：给 AI 装上一个“万能眼镜”

（核心发现：RAE 代表）
以前，AI 看东西和生成图片通常用两套不同的“眼镜”（编码器）。看东西用一套（为了理解），生成图片用另一套（为了画得像）。这就像一个人看画要用左眼，画画要用右眼，非常麻烦且容易打架。

新发现： 他们发现了一种叫 RAE（表示自编码器） 的技术，就像给 AI 装上了一副**“万能眼镜”**。戴上这副眼镜，AI 既能完美地理解图片（比如回答“图里有什么？”），也能完美地生成图片（比如“画一只猫”）。
比喻： 就像你不需要换眼镜就能既看清路标（理解），又能画出路线图（生成）。这大大简化了 AI 的大脑结构。

2. 完美的搭档：文字和视频是“最佳拍档”

（核心发现：数据协同）
很多人担心，如果让 AI 同时学文字和视频，它会不会“顾此失彼”，导致文字变差？

新发现： 完全不会！相反，它们互相成就。
- 文字教给 AI 逻辑和概念（比如“猫”是什么）。
- 视频教给 AI 物理规律和动态（比如猫怎么跑、怎么跳）。
比喻： 想象你在学做菜。光看菜谱（文字）你知道要放盐，但不知道盐放多少合适；光看视频（视觉）你知道动作，但不知道为什么要这么做。把菜谱和视频一起看，你不仅学会了做菜，还成了大厨。研究发现，加入视频数据后，AI 的文字能力没有下降，反而在理解世界方面变得更聪明了。

3. 从“看书”到“模拟世界”：AI 学会了“预演未来”

（核心发现：世界模型）
这是最酷的部分。传统的 AI 只是被动回答问题。但这项研究让 AI 学会了**“世界模型”**。

新发现： 只要给 AI 看足够多的视频和动作指令，它就能预测未来。如果你告诉它“向前走一步”，它就能在脑海里“预演”出下一步会看到什么画面。
比喻： 就像下棋。以前的 AI 只是背棋谱（文字），现在的 AI 能在脑海里模拟出棋局的变化。更神奇的是，他们发现 AI 不需要专门去学“机器人导航”这种高难度课程，只要给它看足够多的普通视频，它就能自然而然地学会这种预测能力。这就像你看了足够多的电影，自然就知道如果主角跳下悬崖会发生什么。

4. 智能的“大脑分工”：MoE 架构

（核心发现：混合专家模型 MoE）
文字和视频的学习方式很不一样：文字需要“脑子大”（参数多），而视频需要“数据多”（看的东西多）。如果用一个固定的大脑结构，很难同时满足两者。

新发现： 他们使用了 MoE（混合专家模型） 架构。这就像给 AI 的大脑里装了一个**“智能调度中心”**。
- 当处理文字时，调度中心叫来一群“文字专家”专家。
- 当处理视频时，调度中心叫来一群“视觉专家”。
- 当需要两者结合时，就召集“全能专家”。
比喻： 这就像一家超级医院。以前是全科医生看所有病，效率低。现在有了 MoE，就像医院里既有专门看心脏的医生，也有专门看骨折的医生。病人来了，分诊台（路由器）自动把他送到最合适的医生那里。这样，AI 既高效又强大，还能根据任务自动调整“脑力”分配。

总结：未来的 AI 会是什么样？

这篇论文告诉我们，未来的 AI 不再仅仅是“聊天机器人”或“画图工具”。

它不再活在书里： 它通过视频和互动，真正理解了物理世界的规则（重力、运动、因果关系）。
它不再需要死记硬背： 它学会了“举一反三”，通过通用的训练，就能掌握导航、规划等复杂技能。
它更像一个“数字生命”： 它不仅能描述世界，还能在脑海中模拟世界，甚至根据指令去“行动”（比如控制机器人）。

简单来说，他们成功地把 AI 从**“只会背书的书呆子”，培养成了“既懂理论又有实践经验的实干家”**。这为未来真正理解物理世界、甚至拥有自主意识的智能体铺平了道路。

Each language version is independently generated for its own context, not a direct translation.

这篇论文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》（超越语言建模：多模态预训练的探索）由 Meta FAIR 和纽约大学的研究团队共同完成。该研究旨在解决统一多模态基础模型（Unified Multimodal Foundation Models）在从零开始预训练（from-scratch pretraining）过程中的核心设计挑战，特别是如何在不依赖预训练语言模型（LLM）初始化的情况下，有效地将视觉和语言信号整合到一个单一模型中。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

语言模型的局限性：当前的基础模型主要基于文本预训练，文本是对现实世界的有损压缩（“柏拉图洞穴”比喻），缺乏物理世界的保真度、几何结构和因果关系。
现有方法的缺陷：
- 微调范式：大多数现有工作是在预训练好的 LLM 基础上进行微调以支持多模态，这导致难以区分哪些能力来自统一训练，哪些是继承自语言预训练。
- 设计空间不透明：视觉和语言在统一模型中的交互机制、数据混合比例、架构设计（如 FFN 共享与否）以及扩展规律尚不明确。
- 表示分裂：传统观点认为视觉理解（如 VQA）需要语义编码器，而视觉生成（如扩散模型）需要 VAE 潜在空间，导致模型需要双套编码器，增加了复杂性。
核心问题：如何从零开始训练一个单一模型，使其能够同时高效地进行语言建模、视觉理解、视觉生成以及世界建模，并解决模态间的竞争与扩展不对称问题？

2. 方法论 (Methodology)

研究采用了 Transfusion 框架，构建了一个从零开始训练的单一自回归 Transformer 模型，具有以下关键设计：

混合目标函数：
- 语言：使用标准的自回归下一词预测（Next-Token Prediction）。
- 视觉：使用基于流匹配（Flow Matching）的扩散模型进行下一视觉状态预测。
- 训练策略：在一个批次中混合文本、视频、图文对（Image-Text Pairs）和动作条件视频（Action-Conditioned Video）。
视觉表示 (Visual Representation)：
- 摒弃了传统的“理解用语义编码器 + 生成用 VAE"的双编码器架构。
- 提出使用 Representation Autoencoder (RAE)（基于 SigLIP 2 等语义编码器），证明单一的高维语义潜在空间可以同时胜任视觉理解和生成任务。
架构设计 (Architecture)：
- 模态特定 FFN (Modality-Specific FFNs)：默认使用独立的 FFN 处理文本和视觉 Token，以减少模态干扰。
- 混合专家模型 (MoE)：引入 MoE 架构，通过动态路由将 Token 分配给不同的专家。研究发现 MoE 能自然形成模态专业化（Modality Specialization），即某些专家专门处理语言，某些专门处理视觉，某些处理多模态。
世界建模 (World Modeling)：
- 将导航动作（如位移、旋转）直接编码为文本 Token，使模型能够以 $I + T \to I$ 的形式预测未来状态，无需专门的适配器。

3. 关键发现与贡献 (Key Contributions & Results)

论文通过受控实验得出了四个核心见解：

(1) 统一的视觉表示 (Unified Visual Representation)

发现：基于 RAE 的语义编码器（如 SigLIP 2）在视觉理解（VQA）和视觉生成（DPGBench, GenEval）上均优于传统的 VAE 编码器。
结果：单一编码器即可满足两种任务需求，简化了架构。VAE 在生成任务上表现尚可，但在理解任务上显著落后；而 RAE 在两项任务上均表现优异。

(2) 数据协同效应 (Data Synergy)

发现：视觉数据与语言数据是互补的，而非竞争关系。
- 纯视频数据：加入纯视频数据对语言建模（Perplexity）几乎没有负面影响，甚至略有提升。
- 图文数据分布：语言能力的轻微下降主要源于图文对（Image-Text）中字幕分布与纯文本训练数据的差异，而非视觉模态本身。
- 协同增益：多模态预训练显著提升了下游任务（如 VQA 和世界建模）的性能，即使使用较少的领域特定数据，通用多模态预训练也能提供强大的基础。

(3) 世界建模的涌现 (Emergence of World Modeling)

发现：世界建模能力（如导航规划）主要源于通用的多模态预训练（特别是视频数据），而非大量的领域特定导航数据。
结果：在 NWM（Navigation World Model）任务中，仅使用 1% 的领域特定数据，配合通用多模态预训练，即可达到与大量领域数据训练相当的性能。模型能够零样本（Zero-shot）地根据自然语言指令（如“走出阴影”）生成导航轨迹。

(4) 扩展规律与 MoE 的作用 (Scaling Laws & MoE)

扩展不对称性 (Scaling Asymmetry)：
- 语言：遵循类似 Chinchilla 的平衡扩展规律（参数与数据比例约为 1:1）。
- 视觉：显著更“数据饥渴”（Data-hungry），需要更多的数据量才能达到最优性能。
- 矛盾：在稠密（Dense）模型中，无法同时满足两种模态的最优扩展需求。
MoE 的解决方案：
- MoE 架构通过解耦总容量与激活计算量，有效缓解了这种不对称性。
- 在 MoE 设置下，语言的扩展规律向“数据饥渴”方向移动，与视觉的扩展规律更加对齐。
- 实验表明，随着总专家数量增加（稀疏度提高），语言和视觉性能均持续提升，MoE 能够自然地学习模态专业化，实现高效扩展。

4. 实验设置与评估 (Experiments & Evaluation)

训练数据：包括大规模网络文本（DCLM）、原始视频（YouTube 等）、图文对（MetaCLIP, Shutterstock）以及动作条件视频（NWM）。
评估指标：
- 语言：DCLM 和 Notes 语料的困惑度（PPL）。
- 视觉生成：DPGBench, GenEval, COCO FID。
- 视觉理解：16 个 Cambrian 基准的平均 VQA 准确率。
- 世界建模：绝对轨迹误差（ATE）和相对姿态误差（RPE）。
对比基线：纯文本模型、纯视觉模型、不同视觉编码器组合、稠密模型 vs. MoE 模型。

5. 意义与展望 (Significance & Future Work)

理论意义：
- 打破了“理解与生成需要不同表示”的固有假设，证明了高维语义空间（RAE）的统一性。
- 揭示了模态竞争并非不可避免，而是可以通过架构设计（MoE）和数据策略（分布对齐）来消除。
- 提出了多模态扩展的新规律，指出视觉模态对数据的需求远高于语言，而 MoE 是解决这一扩展瓶颈的关键架构。
实践意义：
- 为构建真正的“原生多模态”基础模型提供了清晰的工程指南（使用 RAE、MoE、混合数据）。
- 展示了从通用预训练中涌现世界建模能力的可能性，为构建具备物理常识和推理能力的 AI 系统铺平了道路。
未来方向：
- 开发更平衡的视觉编码器，兼顾语义抽象与像素级重建 fidelity。
- 探索 interleaved（交错）数据训练。
- 利用强化学习（RL）进一步对齐生成与理解能力，迈向真正的“系统 2"智能。

总结：这篇论文通过系统的从零训练实验，证明了统一多模态预训练不仅可行，而且通过合理的架构（MoE）和表示（RAE）设计，可以克服模态间的扩展不对称性，涌现出强大的世界建模能力，是迈向下一代通用人工智能的重要一步。