Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Omni-Diffusion(オムニ・ディフュージョン)」**という、画期的な新しい AI について紹介しています。

これまでの AI は「次に来る言葉を一つずつ順番に考える(自動回帰型)」という方式が主流でしたが、この新しい AI は**「全体を一度に、穴埋め感覚で完成させる」**という全く異なるアプローチを採用しています。

まるで、**「完成したパズルを一度バラバラにして、その中から欠けたピースを推測して元に戻す」**ような感覚です。

以下に、専門用語を排し、身近な例え話を使って解説します。


1. 従来の AI との違い:「おしゃべり」vs「パズル」

  • 従来の AI(自動回帰型):
    想像してください。あなたが絵を描くとき、**「左から右へ、一筆ずつ順番に」**描いていくような感じです。次の一筆を描く前に、前の一筆が完成している必要があります。これは「おしゃべり」のように、前の言葉を受けて次の言葉を言うのと同じです。

    • デメリット: 一度間違えると修正しにくく、全体像を把握しながら描くのが苦手です。
  • Omni-Diffusion(新しい AI):
    こちらは、**「完成した絵を一度、白紙(マスク)にして、欠けた部分を同時に推測して埋めていく」ような感覚です。
    例えるなら、
    「穴埋め問題」**です。文章や絵の全体像を一度に把握し、「ここは多分『犬』だろう」「ここは『青い空』だろう」と、複数の場所を同時に推測して、少しずつ正解に近づけていきます。

    • メリット: 全体像を把握しながら作れるので、矛盾が起きにくく、並行して処理できるため**「超高速」**です。

2. 「何でもできる」魔法の箱

この AI のすごいところは、「テキスト(文字)」、「音声(声)」、「画像(絵)」をすべて同じ「言葉(トークン)」として扱っている点です。

  • 従来の AI:
    「文字を話す AI」と「絵を描く AI」は別々の箱に入っていて、つなげるのに工夫が必要です。
  • Omni-Diffusion:
    すべてを**「同じ箱(ユニバーサルな空間)」**に入れています。
    • 「犬の絵」を見せれば、その犬の鳴き声(音声)を真似て話せます。
    • 「犬の鳴き声」を聞かせれば、その犬の絵を描けます。
    • 「犬の絵」と「犬の鳴き声」を同時に与えれば、それらについて会話もできます。

まるで、**「言語、絵、声という異なる通貨を、すべて同じ『通用するお金』に変換して扱っている」**ような状態です。そのため、どの組み合わせでも自由自在に会話が成立します。

3. 3 つの段階で育つ「天才児」

この AI を育てる際、いきなり全部を教えるのではなく、**3 つの段階(ステージ)**で段階的に学習させています。

  1. 第 1 段階(絵と文字の仲介):
    まず「文字」と「絵」の関係を学びます。「猫の絵」を見せたら「猫」という文字が浮かぶようにします。
  2. 第 2 段階(声の追加):
    次に「声」を加えます。「猫の鳴き声」を聞かせたら「猫」という文字、あるいは「猫の絵」が浮かぶようにします。
  3. 第 3 段階(リアルな会話):
    最後に、**「声で質問して、絵を見て、声で答える」**ような複雑な会話を練習します。これにより、人間のような自然なコミュニケーションが可能になります。

4. 工夫された「コツ」

この AI がうまく動くためには、いくつかの工夫(テクニック)が施されています。

  • 位置の罰則(Position Penalty):
    絵を描くとき、AI が「上下左右の端から同時に描き始めて、真ん中でぶつかる」という癖があるため、端から描くことを少し「罰」して、自然な順序で描けるように調整しています。
    • 例: 絵の端から描き始めると、顔が左右対称すぎて不自然になるのを防ぎます。
  • 音声の「先読み」:
    声を出す前に、「今から何話すか」という文字の情報を事前に教えてあげることで、声のトーンやリズムが文章と合致するようにしています。
    • 例: 朗読する前に、原稿を少しだけ目通しさせるような感じです。

5. なぜこれがすごいのか?

  • 速い: 順番に一つずつ作るのでなく、並行して作れるため、生成が非常に速いです。
  • 柔軟: 絵を消しゴムで消して、その部分を AI に「穴埋め」させて修正する(インペインティング)ことも、特別な学習なしでできてしまいます。
  • 統一感: 文字、絵、声がバラバラではなく、**「同じ意味の世界」**で繋がっているため、矛盾した回答が出にくいです。

まとめ

Omni-Diffusion は、「穴埋めパズル」のように、文字・絵・声を同時に理解し、生成する新しい AIです。

これまでの AI が「順番に話す人」だったとすれば、Omni-Diffusion は**「全体を把握して、必要なところを同時に補う天才的な編集者」**のような存在です。これにより、未来の AI は、私たちが「話しかければ絵が描け、絵を見せれば声が返ってくる」という、まるで魔法のような自然な世界を実現してくれるかもしれません。