Beyond Language Modeling: An Exploration of Multimodal Pretraining

本論文は、Transfusion フレームワークを用いたゼロからの中核的なマルチモーダル前訓練を通じて、視覚と言語の相補性、世界モデルの自然な獲得、そしてデータ要求量の非対称性を MoE 構造で解決するスケーリング則など、ネイティブなマルチモーダルモデルの設計指針を明らかにしたものである。

Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が言葉だけでなく、目で見える世界も理解し、創造できるようになるための新しい設計図」**を描いたものです。

これまでの AI(大規模言語モデル)は、本やウェブページという「言葉の影」だけを見て勉強してきました。しかし、現実世界は言葉では説明しきれない「物理法則」や「動き」で満ちています。この論文は、AI がその「影」から抜け出し、現実そのものを直接理解するための道筋を示しています。

主な発見を、4 つの楽しい比喩を使って解説します。


1. 「万能なカメラ」の発見(RAE の重要性)

【比喩:眼鏡とカメラの合体】
これまでの AI は、「理解する時」には「言葉の眼鏡(意味を捉える)」をかけ、「描く時」には「絵の具のカメラ(画質を重視する)」を使っていたため、二つの道具を持ち歩かなければなりませんでした。
しかし、この研究では**「RAE(表現オートエンコーダ)」という、「意味も理解し、高画質の絵も描ける万能なカメラ」**を見つけました。

  • 結果: 一つのカメラで「何が見えているか(理解)」も、「どう描くか(生成)」も完璧にこなせます。これにより、AI の設計がシンプルになり、性能も向上しました。

2. 「言葉と映像」は喧嘩しない、むしろ仲良し(データの相乗効果)

【比喩:料理の食材】
「言葉のデータ」と「映像のデータ」を混ぜると、AI が混乱して言葉が下手になるのではないか?と心配されていました。
しかし、実験結果は驚くべきものでした。

  • 言葉だけの料理も美味しいですが、**映像(動画など)を少し加えるだけで、言葉の理解力も、絵を描く力もさらに美味しく(向上して)**なりました。
  • 特に、**「動画データ」**は言葉の邪魔をせず、むしろ AI に「動き」や「物理法則」を教える素晴らしい食材でした。言葉と映像は、互いを補い合う「最強のパートナー」だったのです。

3. 「未来を予知する力」が自然に育つ(ワールドモデル)

【比喩:映画の続きを想像する】
この AI に「ロボットが左に曲がったら、次の瞬間どう見えるか?」という問いかけをすると、答えられるようになりました。これを**「ワールドモデル(世界モデル)」**と呼びます。

  • 驚くべき点: 専用の「ロボット用データ」を大量に与えなくても、「普通の動画や写真」をたくさん見させるだけで、この「未来を予知する力」が自然に育ちました。
  • 就像子供がテレビを見て「次はどうなる?」と想像する力がつくように、AI も一般的なデータを見るだけで、物理世界のルールを内面化できたのです。

4. 「賢いチームワーク」の仕組み(MoE)

【比喩:大規模な専門家のチーム】
言葉の学習には「大量の知識(パラメータ)」が必要ですが、映像の学習には「大量のデータ(経験)」が必要です。この「必要とするもの」が違うため、一つの大きな頭脳(モデル)で両方を同時に学ぶのは難しいとされていました。
そこで、この論文では**「MoE(混合専門家)」**という仕組みを採用しました。

  • 仕組み: 1 つの巨大なチームの中に、**「言葉の専門家」「映像の専門家」「両方の専門家」**が多数います。
  • 動き: 言葉の質問が来れば「言葉の専門家」が、映像の質問が来れば「映像の専門家」が、それぞれが得意な仕事だけをします。
  • 効果: これにより、言葉と映像の「必要な量のバランス」を自動調整でき、両方の能力を最大限に引き出しながら、計算コストも抑えることができました。

まとめ:これからの AI はどうなる?

この研究は、**「AI はもはや『言葉だけの天才』ではなく、『現実世界を生きる全能の存在』に進化できる」**ことを示しました。

  • 一つのモデルで、言葉も映像も、そして「未来の予測」もこなせるようになります。
  • データは、言葉だけでなく、無数の動画や写真が宝の山になります。
  • 設計は、専門家チーム(MoE)のように柔軟に役割分担することで、効率的に成長します。

つまり、私たちはこれから、**「プラトンの洞窟(壁に映る影)」から抜け出し、「現実そのもの」**と対話できる AI の時代へと踏み出す準備ができているのです。