Each language version is independently generated for its own context, not a direct translation.

この論文は、**「NEO（ネオ）」**という新しい人工知能（AI）の仕組みについて紹介しています。

これまでの AI は、画像を見る「目」と、言葉を話す「口」が別々の部品でできていて、それらを無理やりつなぐ必要がありました。しかし、NEO は**「最初から目と口が一体化した、生まれながらの AI」**です。

わかりやすくするために、いくつかの比喩を使って説明しましょう。

1. 従来の AI と NEO の違い：「レゴ」と「粘土」

従来の AI（モジュール型）：レゴブロックの組み合わせ
今までの AI は、画像を処理する「レゴブロック（目）」と、言葉を理解する「レゴブロック（口）」を別々に作ってから、接着剤（プロジェクター）でくっつけていました。
- 問題点： 接着部分に隙間ができたり、ブロック同士がうまく噛み合わなかったりします。また、それぞれのブロックを別々に訓練する必要があり、手間がかかります。
NEO（ネイティブ型）：一続きの粘土
NEO は、最初から「目」と「口」が混ざり合った一つの大きな粘土から作られています。
- メリット： 接着剤がいりません。画像のピクセル（点）と、言葉の単語が、最初から同じ「土」でできているため、**「赤い薬」**という言葉を聞いた瞬間、脳内で「赤い丸い形」が自然に浮かび上がります。

2. NEO の3 つのすごい工夫

NEO がなぜうまくいくのか、3 つの秘密兵器（プリミティブ）があります。

① 柔軟な「住所」のつけ方（Native-RoPE）

比喩： 地図の座標
従来の AI は、画像の「縦・横」の位置と、文章の「前後」の位置を、同じルールで無理やり扱おうとして混乱していました。
NEO は、「画像の場所（縦・横）」と「文章の順番（前後）」を、それぞれ専用の住所システムで管理しています。
- 効果： 「青い空」の「青」が、画像の「空」のどこにあるかを、AI が瞬時に理解できるようになります。

② 双方向の「会話」ができる（Mixed Attention）

比喩： 会議と独り言
文章を読むときは「前の言葉から順番に読む（独り言）」必要がありますが、画像を見るときは「全体を一度に見渡す（会議）」必要があります。
従来の AI は、画像を見ているときも「独り言」のように順番に処理していましたが、NEO は**「画像の部分は全員が同時に話し合える会議形式」**にしています。
- 効果： 画像の細部と全体像を、一度に深く理解できるようになります。

③ 段階的な「教育」方法（Pre-Buffer & Post-LLM）

比喩： 幼稚園と小学校
NEO は、学習を 2 段階に分けています。
1. Pre-Buffer（幼稚園）： 最初は画像と文字を混ぜて、基本的な「ピクセルと単語のつながり」を教えます。ここは新しく作られた部分です。
2. Post-LLM（小学校）： すでに言葉が得意な AI（既存のモデル）の知識を引き継ぎ、高度な推理や会話の練習をします。
- 効果： 最初は「目」の訓練に集中し、後から「頭」の知識を融合させることで、**「ゼロから画像を理解しつつ、既存の知識も活かす」**という、無理のない成長を実現しました。

3. 結果：どんなことができるようになった？

NEO は、まだ完全な「超巨大 AI」ではありませんが、**「小さなサイズで、巨大な AI に匹敵する力」**を持っています。

どんなこと？
- 複雑なグラフや図表を読む。
- 写真の中の文字（OCR）を読み取る。
- 「この写真の左側の赤い箱を指差して」といった指示に従う。
すごい点：
従来の AI が「画像を切り出して、別の AI に送って、また戻して…」と手間取るのに対し、NEO は**「最初から一つの頭で考えられる」**ため、計算が早く、コストも安く済みます。

まとめ：なぜこれが重要なのか？

この研究は、**「AI を作るには、部品を組み合わせるのではなく、最初から一つのものとして設計するべきだ」**という新しい道を示しました。

これまでは「目」と「口」を別々に育ててつなぐのが当たり前でしたが、NEO は**「生まれながらに目と口を持つ AI」**を実現しました。これにより、より自然で、安く、そして高性能な AI が、これからもっと簡単に作れるようになるでしょう。

まるで、「レゴで車を作る」のではなく、「最初から車として設計された粘土」から、より滑らかで動きのいい車を作れるようになったようなものです。

Each language version is independently generated for its own context, not a direct translation.

論文「FROM PIXELS TO WORDS – TOWARDS NATIVE VISION-LANGUAGE PRIMITIVES AT SCALE (NEO)」の技術的サマリー

本論文は、従来のモジュール型ビジョン・ランゲージモデル（VLM）の課題を克服し、画像と言語を最初から統合的に学習する「ネイティブ VLM」の新たなパラダイムを提案するものです。著者らは、NEO（Native End-to-End Optimized）と呼ばれる新しいネイティブ VLM のファミリーを開発し、大規模な画像・テキストデータを用いたエンドツーエンド学習により、トップクラスのモジュール型モデルに匹敵する性能を達成しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細を記述します。

1. 背景と問題定義

近年の VLM は、事前学習された視覚エンコーダ（VE）と大規模言語モデル（LLM）を軽量なアダプタ（投影層やクロスアテンション）で結合するモジュール型アーキテクチャが主流です。しかし、このアプローチには以下の課題が存在します。

強い帰納的バイアス: 事前学習済みの VE に依存するため、解像度やアスペクト比の柔軟性が制限され、微細な詳細の喪失やスケール変化への感度低下を招く。
複雑なインフラとトレーニング: 複数のコンポーネントを調整するための多段階トレーニングが必要であり、視覚と言語の整合性（アライメント）に多大なコストがかかる。
ネイティブ VLM の限界: 既存のネイティブ VLM（単一モデルで画像とテキストを処理するもの）は、視覚エンコーダの知識を蒸留したり、混合データで学習したりするが、視覚と言語のエンコーディング特性の違いを無視した設計が多く、最適化が不安定になったり、言語知識が破壊されたりする問題があった。

核心となる問い: 「ネイティブ VLM がモジュール型モデルと競合しうるためには、どのような根本的な制約（プリミティブ）を備えるべきか？」

2. 提案手法：NEO のアーキテクチャ

NEO は、第一原理（First Principles）に基づき、画像とテキストを単一のモナリシック（単一）なデコーダ型アーキテクチャに統合します。その中核となるのは、**「ネイティブ VLM プリミティブ」**という新しい設計原則です。

2.1 ネイティブ VLM プリミティブの 3 つの原則

柔軟な位置符号化（Flexible Position Encoding）: 動的な空間構造に一般化可能な設計。
マルチヘッドネイティブアテンション（MHNA）: 視覚とテキストの接続を統合的に処理するアテンション機構。
ネイティブ回転位置埋め込み（Native-RoPE）: 事前学習済み LLM との互換性を保ちつつ、視覚エンコーダの相互作用パターンを取り込む回転位置埋め込み。

2.2 具体的なアーキテクチャ設計

パッチ・ワード埋め込み:
- 画像は軽量な畳み込み層（Conv1, Conv2）と GELU 活性化関数を用いてトークン列に変換されます（32x32 パッチ単位）。
- テキストは既存の LLM トークナイザを使用します。
- 両者は <img> タグで区切られ、統一された空間にマッピングされます。
Native-RoPE（Native Rotary Position Embedding）:
- 従来の 1D-RoPE や既存の 3D-RoPE と異なり、時間軸（T）、高さ（H）、幅（W）の次元を完全に分解し、それぞれに固有の周波数とチャネルを割り当てます。
- テキストでは H/W インデックスをゼロにし、画像では空間位置を H/W で、フレーム間関係を T で表現します。これにより、長距離のテキストと画像間の空間依存性を維持しつつ、局所的な視覚意味を正確に捉えます。
混合アテンション（Mixed Attention）:
- テキストトークンは因果的（Causal）なアテンション（次のトークン予測）を使用。
- 画像トークンは双方向（Bidirectional）アテンションを使用し、視覚エンコーダと同様に画像内のすべてのトークン間の相互作用を可能にします。
Pre-Buffer と Post-LLM の戦略:
- Pre-Buffer: 初期層（ $L_1$ ）はランダム初期化され、視覚学習を担います。
- Post-LLM: 後期層（ $L_2$ ）は事前学習済み LLM の重み（RMSNorm, FFN, 時間軸の Q/K など）を継承し、言語能力を維持します。
- この分割は事前学習段階でのみ存在し、最終的には単一のバックボーンとして統合され、エンドツーエンドで最適化されます。

3. 学習プロセス

NEO は 390M 件の画像・テキストサンプルを用いた 3 段階のトレーニングパイプラインで学習されます。

事前学習（Pre-Training）:
- 3.45 億のウェブスケールおよび合成データ（LAION, COYO, BLIP3o など）を使用。
- LLM の重みを固定し、パッチ埋め込み層、Pre-Buffer、および Post-LLM の新規 Q/K 重みを最適化。視覚概念の基礎と文脈依存性をゼロから学習します。
中間学習（Mid-Training）:
- 高解像度画像、複雑なシーン、OCR、物体検出などのデータ（40M サンプル）を使用。
- 視覚と言語の整合性を強化し、高解像度対応や空間的グラウンディング能力を向上させます。
教師あり微調整（Supervised Fine-Tuning, SFT）:
- 400 万の多様な指示データ（VQA, 対話, 数学, 推論など）を使用。
- 完全なネットワークを最適化し、複雑な言語指示への追従能力と実世界タスクへの適応性を高めます。

4. 主要な結果

NEO は、2B パラメータと 8B パラメータのモデルで、モジュール型および既存のネイティブ VLM と比較評価されました。

モジュール型モデルとの比較:
- 2B および 8B スケールにおいて、Qwen2-VL や InternVL2.5 などのトップクラスのモジュール型モデルと同等か、それ以上の性能を達成しました。
- 特に、強化学習（RL）を使用せず、比較的小規模なデータセット（345M 事前学習データ）でこの結果を達成した点が注目されます。
ネイティブ VLM との比較:
- Mono-InternVL, HoVLE, EVE, SAIL などの既存のネイティブモデルを大幅に上回りました。
- 視覚中心のベンチマーク（MMBench, MMVet, ChartQA など）で顕著な改善が見られ、視覚エンコーダの蒸留なしに複雑な視覚推論が可能であることを示しました。
アブレーション研究:
- Native-RoPEの有効性: 既存の RoPE 変種（1D, M-RoPE, Video-RoPE など）と比較し、H/W/T を分解した Native-RoPE が平均精度を 0.8% 以上向上させました。
- 混合アテンション: 因果的アテンションのみに頼る場合と比較し、画像トークンへの双方向アテンションの導入が性能向上に寄与しました。
- Pre-Buffer: 事前学習された Pre-Buffer 単体でも、CLIP や InternViT などの事前学習済み視覚エンコーダに匹敵する性能を示し、ネイティブ VLM 開発のコスト削減可能性を証明しました。

5. 主要な貢献と意義

ネイティブ VLM の再定義:
- 単なる「モジュールの結合」ではなく、視覚と言語の特性を本質的に統合した「プリミティブ」から構築された単一モデルの重要性を立証しました。
スケーラブルで再利用可能なコンポーネント:
- Pre-Buffer や Native-RoPE などのコンポーネントは再利用可能であり、将来的なネイティブ VLM 研究のためのコスト効果の高いエコシステムを提供します。
エンドツーエンド学習の優位性:
- 多段階の調整を不要とし、データとモデルが学習プロセスを主導するアーキテクチャにより、視覚と言語のシームレスな統合を実現しました。
実用性と拡張性:
- 軽量モデル（2.2B）でも高性能を発揮し、エッジデバイスへの展開や、将来的な動画理解・生成タスクへの拡張可能性を秘めています。

結論

NEO は、ビジョン・ランゲージモデルの設計において「モジュール型」から「ネイティブ統合型」への転換点となる重要な成果です。視覚と言語の根本的な特性を尊重しつつ、単一アーキテクチャ内で効率的に学習する手法は、次世代のマルチモーダルシステムの基盤となる可能性を秘めています。著者らは、コード、モデル重み、詳細なドキュメントを公開し、コミュニティによる再現とさらなる発展を促しています。

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale