InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

紙一重の天才「InternVL-U」:見る、考える、描く、直すをすべてこなす新世代 AI

この論文は、**「InternVL-U」**という新しい AI について紹介しています。

これまでの AI は、「画像を見て内容を理解する専門家」と「指示通りに絵を描く専門家」が別々でした。しかし、InternVL-U は**「見る・考える・描く・直す」をすべて一つの頭脳でこなす、超万能な AI**です。しかも、その頭脳のサイズは非常にコンパクト(40 億パラメータ)で、巨大なモデルよりも賢く、速く、安価に動きます。

これをわかりやすく説明するために、いくつかの比喩を使ってみましょう。


1. 従来の AI との決定的な違い:「二刀流」vs「万能職人」

  • 従来の AI(二刀流):
    昔のシステムは、**「学者」「画家」**を別々に雇って、二人で手を取り合うようなものでした。

    • 学者が「これは猫だ」と教えても、画家が「じゃあ猫を描くね」というときに、学者の言葉が画家に正しく伝わらず、**「猫の耳が逆さま」「文字がぐちゃぐちゃ」**といったミスが起きがちでした。
    • また、二人を連携させるには巨大な事務所(計算資源)が必要で、コストも高くつきました。
  • InternVL-U(万能職人):
    InternVL-U は、**「絵を描くのが得意な天才的な職人」**です。

    • この職人は、**「見る目(理解力)」「描く手(生成力)」**が最初から一体化しています。
    • **「頭(理解)」「手(生成)」を別々の部屋で動かすのではなく、「頭で考えながら、同時に手が動く」**という仕組みです。
    • しかも、この職人は**「4B(40 億)」という小さなサイズなのに、「14B(140 億)」もある巨大な職人チーム(BAGEL など)よりも、絵の質や指示の理解度が上回ります。まるで、「小さなバイクで、大型トラックより速く、賢く走っている」**ようなものです。

2. 3 つの秘密兵器:なぜこれほど優秀なのか?

この AI がこれほどまでに「賢く、器用」になったのには、3 つの設計上の工夫(秘密兵器)があります。

① 「統一された会議室」と「専門の作業場」

  • 比喩: 会社の会議室と、工場の作業場を分けたような仕組みです。
  • 解説:
    • 会議室(理解): 画像を見て「これは何だ?」「どうなっている?」と考えるときは、すべての情報を一つにまとめて深く議論します(統一コンテキスト)。
    • 作業場(生成): 絵を描くときは、その会議で得た「アイデア」を、絵を描くための**「専用の機械(MMDiT)」**に渡します。
    • これにより、「理解する脳」が「描く作業」で疲弊したり、逆に「描く作業」が「理解の邪魔」をしたりするのを防ぎ、「理解力」も「描画力」も両方とも最高レベルに保たれています。

② 「思考のステップ」を教える(CoT:Chain-of-Thought)

  • 比喩: 料理のレシピを「材料を混ぜて焼く」だけでなく、「まず卵を割り、次に牛乳を注ぎ、最後に 180 度のオーブンで 10 分」と手順を細かく教えることです。
  • 解説:
    • ユーザーが「面白い絵にして」とだけ言うと、AI は何をどうすればいいか迷います。
    • InternVL-U は、**「思考の連鎖(Chain-of-Thought)」という技術を使って、ユーザーの曖昧な指示を「具体的なステップ」**に変換します。
    • 例:「2026 年の馬の絵」→「まず 2026 年は馬の年だ。次に、馬のポーズを考えよう。背景は朝日で、文字は『新春』だ」と、頭の中でシミュレーションしてから絵を描くため、論理的なミス(例:足が 5 本ある馬など)が起きにくくなります。

③ 「高品質な食材」を大量に用意した(データ合成パイプライン)

  • 比喩: 料理人が、ただの「野菜」だけでなく、**「数学の図形」「化学の分子式」「面白いネタ画像(ミーム)」まで、あらゆる分野の「高品質な食材」**を自ら作って用意したことです。
  • 解説:
    • 従来の AI は、ただの「美しい風景画」ばかり見て育ったため、**「文字が書かれた看板」「複雑な図形」**を描くのが苦手でした。
    • InternVL-U は、**「文字が正確に書ける絵」「科学の知識が正しい絵」「空間の回転が正しい絵」など、「頭を使う必要がある」**データで徹底的に鍛えられました。
    • その結果、**「数式を書いた黒板」「化学の分子構造図」を描くときも、他の AI が「ぐちゃぐちゃ」にするところを、「完璧に正確」**に描き出すことができます。

3. 具体的に何ができるの?

この AI は、以下のようなことを「まるで魔法のように」こなします。

  • 文字の書き込み: 「この看板の文字を『カフェ』から『喫茶店』に変えて」と言えば、文字の形や背景を壊さずに、きれいに書き換えます
  • 論理的な編集: 「この図形を右に 30 度回転させて、影も合わせて変えて」と言えば、物理法則や幾何学ルールに従って正しく変形します。
  • 知識に基づいた生成: 「光合成のプロセスを描いて」と言えば、植物の細胞や光の動きを科学的に正しく表現します。
  • 面白いネタ(ミーム): 「疲れた猫の絵を作って」と言えば、人間の感情やユーモアを理解した、クスリと笑える絵を描きます。

まとめ:AI の民主化(Democratization)

この論文のタイトルにある「Democratizing(民主化)」とは、**「これまで巨大な会社や大金持ちしか持てなかった『超高性能な AI』を、誰でも手軽に使えるようにした」**という意味です。

InternVL-U は、「小さくて、安くて、なのにすごく賢い」という、夢のような AI です。
これまでは「絵を描く AI」と「考える AI」を別々に使う必要がありましたが、これからは
「一つの AI」で、複雑な推理から美しい絵の生成、そして写真の編集まで、すべてをスムーズに行える時代
が来たことを示しています。

まるで、**「ポケットに入るサイズの天才助手」**が、あなたの隣に常備されるようなものです。