From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

本論文は、ネイティブな視覚言語モデル(VLM)の構築における根本的な課題を明確化し、画素と言語表現を統合する新しいプリミティブに基づいて大規模な「NEO」ファミリーを開発することで、モジュール型モデルに匹敵する性能を達成しつつ、研究の民主化とエコシステムの拡張を促進する手法を提案しています。

Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「NEO(ネオ)」**という新しい人工知能(AI)の仕組みについて紹介しています。

これまでの AI は、画像を見る「目」と、言葉を話す「口」が別々の部品でできていて、それらを無理やりつなぐ必要がありました。しかし、NEO は**「最初から目と口が一体化した、生まれながらの AI」**です。

わかりやすくするために、いくつかの比喩を使って説明しましょう。

1. 従来の AI と NEO の違い:「レゴ」と「粘土」

  • 従来の AI(モジュール型):レゴブロックの組み合わせ
    今までの AI は、画像を処理する「レゴブロック(目)」と、言葉を理解する「レゴブロック(口)」を別々に作ってから、接着剤(プロジェクター)でくっつけていました。

    • 問題点: 接着部分に隙間ができたり、ブロック同士がうまく噛み合わなかったりします。また、それぞれのブロックを別々に訓練する必要があり、手間がかかります。
  • NEO(ネイティブ型):一続きの粘土
    NEO は、最初から「目」と「口」が混ざり合った一つの大きな粘土から作られています。

    • メリット: 接着剤がいりません。画像のピクセル(点)と、言葉の単語が、最初から同じ「土」でできているため、**「赤い薬」**という言葉を聞いた瞬間、脳内で「赤い丸い形」が自然に浮かび上がります。

2. NEO の3 つのすごい工夫

NEO がなぜうまくいくのか、3 つの秘密兵器(プリミティブ)があります。

① 柔軟な「住所」のつけ方(Native-RoPE)

  • 比喩: 地図の座標
    従来の AI は、画像の「縦・横」の位置と、文章の「前後」の位置を、同じルールで無理やり扱おうとして混乱していました。
    NEO は、「画像の場所(縦・横)」と「文章の順番(前後)」を、それぞれ専用の住所システムで管理しています。
    • 効果: 「青い空」の「青」が、画像の「空」のどこにあるかを、AI が瞬時に理解できるようになります。

② 双方向の「会話」ができる(Mixed Attention)

  • 比喩: 会議と独り言
    文章を読むときは「前の言葉から順番に読む(独り言)」必要がありますが、画像を見るときは「全体を一度に見渡す(会議)」必要があります。
    従来の AI は、画像を見ているときも「独り言」のように順番に処理していましたが、NEO は**「画像の部分は全員が同時に話し合える会議形式」**にしています。
    • 効果: 画像の細部と全体像を、一度に深く理解できるようになります。

③ 段階的な「教育」方法(Pre-Buffer & Post-LLM)

  • 比喩: 幼稚園と小学校
    NEO は、学習を 2 段階に分けています。
    1. Pre-Buffer(幼稚園): 最初は画像と文字を混ぜて、基本的な「ピクセルと単語のつながり」を教えます。ここは新しく作られた部分です。
    2. Post-LLM(小学校): すでに言葉が得意な AI(既存のモデル)の知識を引き継ぎ、高度な推理や会話の練習をします。
    • 効果: 最初は「目」の訓練に集中し、後から「頭」の知識を融合させることで、**「ゼロから画像を理解しつつ、既存の知識も活かす」**という、無理のない成長を実現しました。

3. 結果:どんなことができるようになった?

NEO は、まだ完全な「超巨大 AI」ではありませんが、**「小さなサイズで、巨大な AI に匹敵する力」**を持っています。

  • どんなこと?
    • 複雑なグラフや図表を読む。
    • 写真の中の文字(OCR)を読み取る。
    • 「この写真の左側の赤い箱を指差して」といった指示に従う。
  • すごい点:
    従来の AI が「画像を切り出して、別の AI に送って、また戻して…」と手間取るのに対し、NEO は**「最初から一つの頭で考えられる」**ため、計算が早く、コストも安く済みます。

まとめ:なぜこれが重要なのか?

この研究は、**「AI を作るには、部品を組み合わせるのではなく、最初から一つのものとして設計するべきだ」**という新しい道を示しました。

これまでは「目」と「口」を別々に育ててつなぐのが当たり前でしたが、NEO は**「生まれながらに目と口を持つ AI」**を実現しました。これにより、より自然で、安く、そして高性能な AI が、これからもっと簡単に作れるようになるでしょう。

まるで、「レゴで車を作る」のではなく、「最初から車として設計された粘土」から、より滑らかで動きのいい車を作れるようになったようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →