Each language version is independently generated for its own context, not a direct translation.

ランタン（LanteRn）：AI に「言葉にならない思考」を持たせる新技術

この論文は、**「AI に『言葉にできない直感的なイメージ』で考えさせる」**という画期的な技術「LanteRn（ランタン）」を紹介しています。

普段の AI（大規模マルチモーダルモデル）は、画像を見てから「これは犬だ、これは赤い」とすべてを言葉に変換して考えています。しかし、複雑な空間関係や細かい視覚的なニュアンスを言葉だけで説明するのは、人間で言えば「目隠しをして、目の前の風景を言葉だけで説明しようとしている」ようなもので、非常に非効率でミスも起きやすいのです。

LanteRn は、この「言葉に変換する」というステップを一部省略し、AI の頭の中に「言葉にならない思考（イメージ）」を直接残して考えることを可能にしました。

🏠 具体的な仕組み：3 つのステップで解説

この技術を理解するために、**「料理を作る」**というシチュエーションで例えてみましょう。

1. 従来の AI：レシピ本にすべて書き込む

状況: 料理人が食材（画像）を見て、レシピ（思考）を作ります。
問題点: 料理人は「この野菜の鮮やかな緑色」「包丁の角度」「鍋の熱気」をすべて言葉で書き記さなければなりません。
- 「緑色で、光沢があり、葉脈がはっきりしている野菜」など、詳細を言葉にするのは時間がかかり、重要なニュアンスが抜けてしまいます。
- これが現在の AI が抱える「視覚情報を言葉に圧縮する」という限界です。

2. LanteRn のアプローチ：頭の中に「イメージ」を浮かべる

LanteRn は、**「言葉にする前に、頭の中にイメージを浮かべる」**という新しいステップを追加しました。

ステップ①：言葉の思考（テキスト）
- 「まず、自転車の場所を確認しよう」というように、まずは言葉で計画を立てます。
ステップ②：イメージの思考（Latent Visual Thought）
- ここで、**「言葉にしない思考」**が起動します。
- AI は、自転車の位置や、その前にある駐車メーターの形を、**「言葉」ではなく「高次元のイメージ（データ）」**として頭の中に直接描きます。
- これは、料理人が「この野菜の鮮やかな緑色」を言葉にするのではなく、**「パッと見て、その色と形を脳に焼き付ける」**ような感覚です。
ステップ③：答えを導く
- その「イメージ」を頭の中で整理してから、最終的な答えを言葉で出力します。

🎓 2 つのトレーニング段階

この「イメージで考える力」を AI に教えるために、2 つの段階でトレーニングを行いました。

第 1 段階：「模写」の練習（教師あり学習）

何をした？: 人間が「ここを見なさい」と指示した画像の部分を、AI がその画像の「特徴」をそのままコピーして頭の中にイメージするように訓練しました。
例え: 料理見習いが、シェフ（教師）が「この野菜のこの部分を見ろ」と指差した瞬間、その色や形をそのまま記憶するように練習する段階です。
結果: AI は画像の細部を正確に捉えられるようになりましたが、まだ「なぜそれを見る必要があるか」という目的意識は弱かったです。

第 2 段階：「試行錯誤」の練習（強化学習）

何をした？: 正解かどうかという「結果」だけを見て、AI 自身に「どんなイメージを持てば正解に近づけるか」を学ばせました。
例え: 料理見習いに「正解の味を出せ」と言われ、**「言葉で説明しなくてもいいから、頭の中でイメージを自由に組み替えて、正解にたどり着け」**と試行錯誤させました。
結果: AI は、単に画像をコピーするだけでなく、「問題を解くために必要な重要なイメージだけ」を抽出して考えるようになりました。これにより、複雑な視覚的な推理能力が劇的に向上しました。

🌟 なぜこれがすごいのか？

計算コストの削減:
- 従来の方法では、AI が「画像を生成して、それをまた見て…」と繰り返す必要があり、非常に重たい計算が必要でした。
- LanteRn は、**「言葉にならないイメージ（データ）」**だけで思考を完結させるため、無駄な計算を省き、効率的に動けます。
人間に近い思考:
- 私たちは「右側の木の下に猫がいる」と考えるとき、まず言葉で説明する前に、頭の中にその光景をパッと浮かべて理解します。LanteRn は、AI にこの「直感的なイメージ思考」を可能にしました。

💡 まとめ

LanteRn は、AI に**「言葉にする前の、純粋な視覚的な直感」**を持たせる技術です。

従来の AI: 「画像を見て、すべてを言葉に変換して考える」→ 情報が減る、遅い。
LanteRn: 「画像を見て、頭の中にイメージを浮かべて考え、最後に言葉にする」→ 情報が残る、速い、賢い。

この技術は、AI がより人間らしく、効率的に「見る」ことと「考える」ことを統合する未来への重要な一歩です。

Each language version is independently generated for its own context, not a direct translation.

LanteRn: 潜在空間における構造化視覚推論の技術的サマリー

本論文は、ICLR 2026 Multimodal Intelligence ワークショップで発表された「LanteRn (Latent Visual Structured Reasoning)」に関する研究です。大規模マルチモーダルモデル（LMM）が視覚推論において直面する課題を解決し、テキストと圧縮された「潜在視覚表現」を交互に用いることで、効率的かつ高精度な推論を実現する新しいフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義

現在の LMM は、多くのタスクで優れた性能を発揮していますが、視覚推論においては依然として課題が残っています。

言語中心の推論の限界: 既存のモデルは、視覚入力を一度エンコードした後、すべての推論プロセスをテキスト（言語）に依存して行います（「画像について考える」アプローチ）。これにより、高次元の知覚情報が低帯域幅の記号（言語）に変換され、細かな空間的・視覚的構造の理解が困難になります。
既存アプローチの欠点:
- ツールベース: 画像切り抜きや検出などの外部ツールを呼び出す方法は、計算コストが高く、事前に定義されたツールの範囲に限定されます。
- 画像生成ベース: 推論の中間段階で画像を生成する方法は、タスクに不要なフォトリアリスティックな詳細に計算リソースを浪費し、非効率的です。

これらの課題に対し、「画像を使って考える（Thinking with images）」、すなわち推論プロセス自体に視覚情報を直接組み込むことが求められています。

2. 提案手法：LanteRn

LanteRn は、LMM がテキストとコンパクトな**潜在視覚トークン（Latent Visual Tokens）**を交互に生成・利用することで、推論をモデルの視覚特徴空間（潜在空間）内で直接行うことを可能にするフレームワークです。

2.1 モデルアーキテクチャ

ベースモデル: Qwen2.5-VL アーキテクチャを基盤としています。
制御トークンの追加: 推論モードの遷移を制御する 3 つの特殊トークンを語彙に追加します。
- <|lvr_start|>: 潜在視覚推論の開始。
- <|lvr_sep|>: 潜在トークンの区切り（内部使用）。
- <|lvr_end|>: 潜在視覚推論の終了。
ハイブリッド推論フロー:
1. テキストモード: 通常の言語モデルとして次のトークンを予測。
2. 視覚潜在モード: <|lvr_start|> 生成後、固定された長さ $K$ のステップにわたり、言語モデルヘッドをバイパスし、最終トランスフォーマー層の隠れ状態（連続ベクトル）を直接出力します。これらは「視覚的思考（Visual Thoughts）」として内部文脈に保持され、次のテキスト生成に利用されます。

2.2 2段階のトレーニング戦略

LanteRn は、視覚的忠実性とタスク有用性の両方を達成するために、2段階で学習されます。

第 1 段階：教師あり微調整（SFT）

目的: 潜在状態を視覚特徴に「接地（Grounding）」させる。
教師信号: 人間の注釈ではなく、モデル自身のビジョンエンコーダを教師として利用します。
- 推論トレース内の特定の領域（Bounding Box）に対応する視覚特徴をビジョンエンコーダから抽出し、これを「ターゲット潜在表現」として定義します。
損失関数:
- テキスト生成損失: 通常のクロスエントロピー損失。
- 潜在アライメント損失: 生成された潜在ベクトルと、ビジョンエンコーダから抽出されたターゲット特徴との間の平均二乗誤差（MSE）を最小化します。これにより、モデルは視覚内容を言語化せずとも、潜在空間で視覚情報を再構成・保持する能力を学習します。

第 2 段階：強化学習（RL）

目的: 視覚的忠実性だけでなく、タスクの有用性に基づいて潜在推論を最適化する。
アルゴリズム: グループ相対方策最適化（GRPO）を採用。
報酬設計:
- 精度報酬: 最終的な回答の正誤に基づくスパースな報酬。
- フォーマット報酬: 推論チェーンに適切なタグ（<|lvr_start|> など）が含まれていることを保証する構造的報酬。
潜在状態リプレイ（Latent State Replay）: 方策更新時に、サンプリング中に生成された連続的な潜在ベクトルを固定して使用することで、重要度サンプリングの不安定さを解消し、テキスト生成の方策のみを最適化しつつ、潜在生成パラメータへの勾配を伝播させます。

3. 主要な貢献

新しい推論パラダイム: 画像生成や外部ツールに依存せず、モデル内部の連続的な潜在空間で視覚推論を行う「LanteRn」フレームワークを提案。
ハイブリッド推論メカニズム: テキストトークンと連続的な潜在ベクトルを交互に生成・利用するアーキテクチャと、その学習手法（SFT + RL）を確立。
効率的な視覚推論: 高解像度の画像生成や外部ツール呼び出しの計算コストを回避しつつ、細かな視覚的・空間的推論能力を向上させることを実証。

4. 実験結果

LanteRn は、視覚推論に特化した 3 つのベンチマーク（VisCoT, V ⋆, Blink）で評価されました。

SFT 段階の結果:
- 視覚的接地（Object Localization, Direct Attribution）において、ベースモデルやテキストのみのベースライン（LantErn-NTP）を上回る性能を示しました。
- しかし、複雑な関係性推論（Relative Position）などでは、潜在表現がまだ十分に活用されていないことが示唆されました。
- 潜在トークンの数（ $K$ ）が増加しても性能が単調に向上するわけではなく、タスクの複雑さに応じた適応が必要であることが示されました。
RL 段階の結果:
- SFT 後に RL を適用したモデル（LantErn-RL-8）は、すべてのベンチマークで最良の性能を達成しました。
- 特に、BlinkRP（相対位置推論）では 0.68 から 0.81 へ、V ⋆RP では 0.57 から 0.67 へと大幅な改善が見られました。
- これは、RL によって潜在表現が単なる視覚的再現から、「タスクに特化した抽象的な視覚思考」へと進化することを示しています。
計算効率: 7B パラメータモデルと同等の性能を、3B パラメータモデルで達成した点も注目すべき点です。

5. 意義と結論

LanteRn は、マルチモーダル推論において「画像を生成して考える」のではなく、「画像の潜在表現を内部で操作して考える」ことが有効であることを実証しました。

効率性: 高コストな画像生成や外部ツールなしで、視覚情報の高次元な構造を保持したまま推論を進められます。
汎用性: 強化学習を通じて、モデルはタスクの目的に合わせて内部視覚表現を柔軟に調整できるようになります。
将来展望: 固定長の潜在ブロックから、タスクの複雑さに応じて動的にサイズを調整するメカニズムや、潜在表現の可視化・解釈性の向上が今後の課題として挙げられています。

本研究は、大規模マルチモーダルモデルの推論能力を飛躍的に向上させるための、計算効率の高い新しい方向性を提示するものです。

LanteRn: Latent Visual Structured Reasoning