Beyond Language Modeling: An Exploration of Multimodal Pretraining

该论文通过基于 Transfusion 框架的从头预训练实验,揭示了统一多模态预训练在表征学习、能力协同及世界建模方面的关键优势,并证明了混合专家(MoE)架构能有效解决语言与视觉数据在扩展性上的不对称问题,从而推动真正统一的多模态模型发展。

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在讲述一个关于**“如何教 AI 真正看懂世界,而不仅仅是读懂文字”**的冒险故事。

以前的 AI(大语言模型)就像是一个博学的图书管理员。它读过世界上所有的书,能写出优美的文章,也能回答复杂的问题。但是,它从未真正“见过”书里描述的世界。它知道“苹果”这个词,知道苹果是红色的、圆的,但它没见过真实的苹果,也不懂苹果从树上掉下来时的物理规律。它就像柏拉图洞穴寓言里的人,只能看到墙上的影子(文字),却看不到真实的物体。

这篇论文的研究团队(来自 Meta FAIR 和纽约大学)决定打破这个局限,他们想造一个**“既能读又能看,还能动手”**的超级 AI。他们从零开始训练,没有借用任何现成的“图书管理员”底子,而是让 AI 直接面对文字、图片、视频甚至动作指令。

以下是他们发现的四个关键“秘密武器”:

1. 统一的语言:给 AI 装上一个“万能眼镜”

(核心发现:RAE 代表)
以前,AI 看东西和生成图片通常用两套不同的“眼镜”(编码器)。看东西用一套(为了理解),生成图片用另一套(为了画得像)。这就像一个人看画要用左眼,画画要用右眼,非常麻烦且容易打架。

  • 新发现: 他们发现了一种叫 RAE(表示自编码器) 的技术,就像给 AI 装上了一副**“万能眼镜”**。戴上这副眼镜,AI 既能完美地理解图片(比如回答“图里有什么?”),也能完美地生成图片(比如“画一只猫”)。
  • 比喻: 就像你不需要换眼镜就能既看清路标(理解),又能画出路线图(生成)。这大大简化了 AI 的大脑结构。

2. 完美的搭档:文字和视频是“最佳拍档”

(核心发现:数据协同)
很多人担心,如果让 AI 同时学文字和视频,它会不会“顾此失彼”,导致文字变差?

  • 新发现: 完全不会!相反,它们互相成就
    • 文字教给 AI 逻辑和概念(比如“猫”是什么)。
    • 视频教给 AI 物理规律和动态(比如猫怎么跑、怎么跳)。
  • 比喻: 想象你在学做菜。光看菜谱(文字)你知道要放盐,但不知道盐放多少合适;光看视频(视觉)你知道动作,但不知道为什么要这么做。把菜谱和视频一起看,你不仅学会了做菜,还成了大厨。研究发现,加入视频数据后,AI 的文字能力没有下降,反而在理解世界方面变得更聪明了。

3. 从“看书”到“模拟世界”:AI 学会了“预演未来”

(核心发现:世界模型)
这是最酷的部分。传统的 AI 只是被动回答问题。但这项研究让 AI 学会了**“世界模型”**。

  • 新发现: 只要给 AI 看足够多的视频和动作指令,它就能预测未来。如果你告诉它“向前走一步”,它就能在脑海里“预演”出下一步会看到什么画面。
  • 比喻: 就像下棋。以前的 AI 只是背棋谱(文字),现在的 AI 能在脑海里模拟出棋局的变化。更神奇的是,他们发现 AI 不需要专门去学“机器人导航”这种高难度课程,只要给它看足够多的普通视频,它就能自然而然地学会这种预测能力。这就像你看了足够多的电影,自然就知道如果主角跳下悬崖会发生什么。

4. 智能的“大脑分工”:MoE 架构

(核心发现:混合专家模型 MoE)
文字和视频的学习方式很不一样:文字需要“脑子大”(参数多),而视频需要“数据多”(看的东西多)。如果用一个固定的大脑结构,很难同时满足两者。

  • 新发现: 他们使用了 MoE(混合专家模型) 架构。这就像给 AI 的大脑里装了一个**“智能调度中心”**。
    • 当处理文字时,调度中心叫来一群“文字专家”专家。
    • 当处理视频时,调度中心叫来一群“视觉专家”。
    • 当需要两者结合时,就召集“全能专家”。
  • 比喻: 这就像一家超级医院。以前是全科医生看所有病,效率低。现在有了 MoE,就像医院里既有专门看心脏的医生,也有专门看骨折的医生。病人来了,分诊台(路由器)自动把他送到最合适的医生那里。这样,AI 既高效又强大,还能根据任务自动调整“脑力”分配。

总结:未来的 AI 会是什么样?

这篇论文告诉我们,未来的 AI 不再仅仅是“聊天机器人”或“画图工具”。

  • 它不再活在书里: 它通过视频和互动,真正理解了物理世界的规则(重力、运动、因果关系)。
  • 它不再需要死记硬背: 它学会了“举一反三”,通过通用的训练,就能掌握导航、规划等复杂技能。
  • 它更像一个“数字生命”: 它不仅能描述世界,还能在脑海中模拟世界,甚至根据指令去“行动”(比如控制机器人)。

简单来说,他们成功地把 AI 从**“只会背书的书呆子”,培养成了“既懂理论又有实践经验的实干家”**。这为未来真正理解物理世界、甚至拥有自主意识的智能体铺平了道路。