Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「複数の画像を一度に見せても、AI がごちゃ混ぜにして理解してしまう問題を、簡単な方法で解決した」**という画期的な研究について書かれています。

専門用語を使わず、日常の例え話を使って解説しますね。

1. 問題：AI の「記憶違い」

最近の AI（大規模視覚言語モデル）は、1 枚の画像を見せると非常に賢く、何が見えているかを正確に説明できます。しかし、2 枚以上の画像を同時に見せると、とたんにバカになってしまいます。

例え話：
あなたが友達に「写真 A と写真 B を見て、どちらに猫がいるか教えて」と頼んだとします。
- 正常な状態： 「写真 A には猫が、写真 B には犬がいるよ」と正しく答えます。
- 今の AI の状態（問題）： 「写真 A にも写真 B にも猫がいるよ！」と、2 枚の画像の情報を混同して答えてしまいます。
- これを論文では**「画像間の情報漏洩（クロスイメージ・リーケージ）」**と呼んでいます。AI が「どこの画像の話をしているか」を区別できなくなっているのです。

2. 原因：「仕切り」が弱すぎた

AI は画像と画像の間に、**「区切り文字（デリミター）」**という目印を挿入しています。

例え話：
料理のレシピ本を想像してください。
- 「卵の作り方」
- （ここが区切り文字）
- 「ステーキの作り方」
  通常、この「区切り文字」があれば、AI は「あ、ここから新しい話だ」とわかります。
  しかし、現在の AI はこの区切り文字を**「ただの文字」**としてしか見ておらず、強力な「壁」の役割を果たしていません。そのため、隣のページ（画像）の内容が勝手に流れ込んでしまい、情報が混ざり合ってしまうのです。

3. 解決策：「区切り文字」を巨大化させる

この論文の著者たちは、この区切り文字の役割を分析し、ある単純な方法を見つけました。

発見：
区切り文字は、実は AI の脳内で「その画像の代表選手（タグ）」のような役割を果たしていました。しかし、その存在感が小さすぎて、他の画像の情報が流れ込んでしまうのです。
解決策（Delimiter Token Scaling）：
**「区切り文字の存在感（隠れ状態）を、単純に大きく（スケールして）増幅させよう」**という方法です。
- 例え話：
  会議室で、隣の部屋の話が聞こえてくるのを防ぎたいとします。
  - 従来の方法： 壁を厚くする（AI の構造を変える）か、会議を何度も繰り返して練習させる（追加の学習）必要があります。
  - この論文の方法： 会議の司会者（区切り文字）に**「マイクを 10 倍の音量で話させ」**ます。
  - 司会者の声が圧倒的に大きくなると、参加者（AI の注目機構）は「今はこの部屋の話だ！」と強く意識し、隣の部屋の話（他の画像の情報）に耳を貸さなくなります。

4. 驚くべき結果：コストゼロで劇的改善

この方法は、AI の構造を変えるでも、新しいデータで学習させるでもありません。**「既存の AI が持っている区切り文字の声を大きくする」**という、非常にシンプルで賢い操作です。

メリット：
- 無料： 追加の学習も、計算コストもかかりません。
- 高速： 処理速度は全く変わりません。
- 効果大： 複数の画像を比較するテストや、複数の文章を要約するテストなど、あらゆる場面で AI の正解率が上がりました。

まとめ

この論文は、**「AI が複数の画像を区別できないのは、区切り文字の『声』が小さすぎるからだった。だから、その声を大きくしてやれば、AI は賢く区別できるようになる」**という、シンプルながら非常に効果的な発見を報告しています。

まるで、**「静かな部屋で隣人の話を聞かないようにするには、壁を厚くするのではなく、自分の部屋の音楽を大きく流せばいい」**という、意外に簡単な解決策を見つけたようなものです。

Each language version is independently generated for its own context, not a direct translation.

以下は、ICLR 2026 に投稿された論文「ENHANCING MULTI-IMAGE UNDERSTANDING THROUGH DELIMITER TOKEN SCALING」の技術的な要約です。

1. 問題定義 (Problem)

大規模視覚言語モデル（LVLMs）は、単一の画像を入力としたタスクでは高い性能を発揮しますが、複数の画像を入力として与えると性能が著しく低下するという課題があります。
この性能低下の主な原因は、「クロスイメージ情報漏洩（Cross-image information leakage）」と呼ばれる現象です。これは、モデルが異なる画像間の情報を明確に区別できず、ある画像の情報が別の画像の文脈に混入してしまうことを指します。
既存の LVLMs は、画像の区切りを示すために特別な「デリミタトークン（例: <|vision start|>, <|vision end|>）」を使用していますが、著者らの分析によると、これらのトークンだけではクロスイメージ間の干渉を完全に防げず、情報の混同が依然として発生していることが明らかになりました。

2. 手法 (Methodology)

著者らは、デリミタトークンの動作を詳細に分析し、以下の 2 つの重要な性質を発見しました。

対応関係の形成: 第 $i$ 番目の画像のトークンは、第 $i$ 番目のデリミタトークンから強いアテンション（注目）を受け、画像とデリミタの間に明確な対応関係が形成される。
画像タグとしての機能: デリミタトークンは、対応する画像内のトークン間の相互作用（イントライメージ相互作用）を強化する「タグ」として機能している。

これらの洞察に基づき、著者らは**「デリミタトークンの隠れ状態（Hidden States）をスケーリングする」**という単純かつ効果的な手法を提案しました。

具体的な操作: 各レイヤー $l$ におけるデリミタトークン $t$ の隠れ状態 $h_t^{(l)}$ を、スケーリング係数 $\lambda$ ( $\lambda > 1$ ) を用いて以下のように変換します。
$h_t^{(l)*} = \begin{cases} \lambda \cdot h_t^{(l)} & \text{if } t \in \mathcal{D} \\ h_t^{(l)} & \text{otherwise} \end{cases}$
ここで $\mathcal{D}$ はデリミタトークンのインデックス集合です。
メカニズム:
- クロスイメージ相互作用の抑制: デリミタトークンの活性化を高めることで、ソフトマックス正規化の性質上、他の画像のトークンに対するアテンションが相対的に減少し、画像間の不要な干渉が抑制されます。
- イントライメージ相互作用の維持: 画像内のトークンが対応するデリミタトークンに対してアテンションを集中させる効果（画像タグ効果）が強化され、画像内部の文脈理解は維持・強化されます。
- この手法は、アテンション計算そのものを変更するのではなく、隠れ状態を操作するだけであるため、FlashAttention などの最適化された計算カーネルと互換性があり、追加の計算コストを伴いません。

3. 主な貢献と発見 (Key Contributions & Findings)

デリミタトークンの役割の解明: 既存のモデルにおいてデリミタトークンが単なる区切り記号ではなく、画像を識別する「局所的なバイアス項（Sink Token に似たが局所的な性質）」として機能していることを理論的・実験的に示しました。
トレーニングフリーかつコストゼロの改善: 追加の学習（Fine-tuning）や推論時の計算コスト増大、アーキテクチャの変更を一切必要とせず、既存のモデルに適用可能です。
汎用性の証明: 単なる画像理解だけでなく、複数のドキュメントやテーブルを扱うテキストベースのタスク（マルチドキュメント要約、マルチテーブル QA）においても同様の効果（情報漏洩の防止）が確認されました。

4. 実験結果 (Results)

提案手法は、複数の大規模モデル（Qwen2.5-VL, InternVL3, LLaVA-OneVision など）および多様なベンチマークで検証されました。

マルチイメージベンチマーク:
- Mantis, MuirBench, MIRB, QBench2 などの主要ベンチマークにおいて、すべてのモデルサイズ（0.5B から 78B まで）で性能が向上しました。
- 例：Qwen2.5-VL-3B は MuirBench で 37.31 → 42.42、Mantis で 59.91 → 63.13 と大幅な改善を示しました。
テキストベースのマルチインスタンスタスク:
- MultiNews, WCEP-10（マルチドキュメント要約）や TQABench（マルチテーブル QA）においても、ROUGE スコアや正解率の向上が確認されました。
定性的分析:
- アテンションマップの可視化により、提案手法を適用することで画像間の不要なアテンション（赤い枠で示される漏洩）が減少し、画像境界が明確になっていることが確認されました。
- 具体例として、「Image 1 と Image 2 の両方に自転車に乗る男性がいるか？」という質問に対し、ベースラインモデルは両方にあると誤答しましたが、提案手法では「Image 2 のみ」と正確に回答できました。
効率性:
- 推論時間、メモリ使用量（VRAM）ともにベースラインと同等であり、追加コストはゼロです。

5. 意義と結論 (Significance & Conclusion)

本論文は、マルチイメージ理解における「情報漏洩」問題に対し、モデルの内部構造を深く理解した上で、極めて軽量かつ効果的な解決策を提示した点で重要です。

実用性: 追加学習やリソース増大を伴わないため、既存の商用モデルやオープンソースモデルへの即座の適用が可能です。
理論的洞察: Sink Token の研究を LVLM のマルチイメージ設定に拡張し、デリミタトークンが局所的な Sink として機能しているという新たな知見を提供しました。
将来展望: 現在の手法は明示的なフレーム区切りトークンを持つ動画には適用できませんが、このアプローチは動画理解や、より複雑なマルチモーダル入力への拡張可能性を示唆しています。

要約すれば、**「画像の区切りトークンの隠れ状態を少し増幅させるだけで、複数の画像を混同せずに正確に理解できるモデルを実現し、追加コストなしで性能を向上させた」**という画期的な成果です。

Enhancing Multi-Image Understanding through Delimiter Token Scaling

1. 問題：AI の「記憶違い」

2. 原因：「仕切り」が弱すぎた

3. 解決策：「区切り文字」を巨大化させる

4. 驚くべき結果：コストゼロで劇的改善

まとめ

1. 問題定義 (Problem)

2. 手法 (Methodology)

3. 主な貢献と発見 (Key Contributions & Findings)

4. 実験結果 (Results)

5. 意義と結論 (Significance & Conclusion)

関連論文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation