Each language version is independently generated for its own context, not a direct translation.

🎭 タイトル：「一つのトークン、二つの運命」

～AI の「目」を操って、嘘つきを直す～

1. 問題：AI はなぜ嘘をつくのか？

AI は画像を見て「これは何？」と答えるとき、2 つの力が戦っています。

👁️ 目の力（視覚）： 画像から得た事実。
🗣️ 口の力（言語）： 過去の知識や「こうだろう」という予想（言語の慣性）。

これまでの研究では、この 2 つを別々に治そうとしていました。

「目を強くする」方法： 画像への注目度を上げる。
「口を黙らせる」方法： 予想を打ち消す。

しかし、これらをバラバラにやると**「目だけ強くしても、AI の癖（言語の慣性）が強すぎて負けてしまう」とか、「口を黙らせようとして画像をいじると、逆にノイズが入って混乱してしまう」というジレンマがありました。まるで、「片方の耳を塞いで大声で叫んでも、相手の癖が勝ってしまう」**ような状態です。

2. 解決策：AI の「目（ビジョン・トークン）」を二刀流にする

この論文のアイデアは、**「AI が画像を認識する際の『目』のデータ（ビジョン・トークン）そのもの」を、「強化」**と **「矯正」**の 2 つの役割で同時に使うというものです。

まるで、**「同じ食材（野菜）を、同時に『スープの具』としても『毒抜き』としても使う」**ような発想です。

① 強化の役割：「SVC（シナジー・ビジュアル・キャリブレーション）」

どんなこと？
元の画像だけでなく、**「加工した画像（逆さまにしたり、少しぼかしたりしたもの）」**も AI に見せます。
なぜ効果がある？
元の画像と加工した画像を組み合わせると、**「互いに補い合う」**情報が見つかります。
- 例：元の画像で「カメラ」のレンズが見えにくい場合、加工した画像では「ボディ」がはっきり見えるかもしれません。
- これらを混ぜて AI に見せることで、**「画像の全体像をより鮮明に捉える」**ことができます。これにより、AI が「画像を見失う」のを防ぎます。

② 矯正の役割：「CRC（因果的表現キャリブレーション）」

どんなこと？
画像の「目」のデータを**あえて一部削除（切り捨て）**して、AI に見せます。
なぜ効果がある？
ここが最も面白い部分です。
- 従来の方法：画像を「黒塗り」や「ノイズ」にして見せる（画像そのものを壊す）。→ これだと AI が「何が見えないのか」を混乱して、余計なノイズが入る。
- この論文の方法：画像のデータ（トークン）を**「頭の中（隠れ層）」で一部消す**。
- 例：「カメラのレンズのデータ」だけ消して、AI に「レンズがない画像」を想像させます。
- AI は「レンズがないのに『レンズがある』と言おうとする」癖（バイアス）を持っています。この**「データがない状態での嘘」を AI に見せて、「あ、ここは嘘をついているな」とAI の「嘘をつく方向」を特定**します。
- その「嘘の方向」を逆転させて、元の答えから差し引くことで、**「純粋な事実」**に近づけます。

3. 結果：どうなった？

この 2 つの役割（強化と矯正）を、**「同じ『目』のデータ」**を使って、AI の処理の途中（隠れ層）で同時に行うことで、以下の成果が出ました。

嘘が減った： 実際にはない物体を「ある」と言う間違いが大幅に減りました。
賢さは保たれた： 嘘を直すために、AI の一般的な会話能力や推理能力は損なわれませんでした。
速い： 特別な学習（トレーニング）は不要で、計算コストもほとんど増えません（1 秒あたりの処理速度はほぼ同じ）。

🌟 まとめ：どんなイメージ？

この技術を一言で言うと、**「AI の『目』を、同時に『拡大鏡』としても『補正レンズ』としても使う」**ようなものです。

拡大鏡（SVC）： 画像の細部をより鮮明に見せて、事実を強化する。
補正レンズ（CRC）： 「もし目が見えなかったらどうなるか？」をシミュレーションして、AI の思い込み（バイアス）を削ぎ落とす。

これらを**「一つの仕組み」**で統合したおかげで、AI は「見ているもの」に忠実になり、より信頼できる回答ができるようになったのです。

一言で言えば：
「AI が勝手に嘘をつくのは、『目』が弱って『口（癖）』が強すぎるから。だから、『目』のデータを工夫して、同時に『目』を鍛えつつ『癖』を直すという、一石二鳥の新しい方法を見つけたよ！」という論文です。

Each language version is independently generated for its own context, not a direct translation.

論文要約：One Token, Two Fates

〜ビジョントークン操作による MLLM 幻覚（Hallucination）対策の統合フレームワーク〜

1. 背景と問題定義

マルチモーダル大規模言語モデル（MLLM）は強力な視覚理解能力を持っていますが、視覚証拠と矛盾する流暢なテキストを生成する「幻覚（Hallucination）」という重大な欠陥を抱えています。

既存のトレーニング不要（Training-free）な対策は、以下の 2 つの独立したアプローチに分かれており、それぞれにトレードオフが存在します。

視覚信号の強化: 視覚アテンションを強化するが、言語モデルの強い事前知識（テキスト慣性）には勝てない場合がある。
テキスト慣性の抑制: 負のサンプルを用いて言語バイアスを抑えるが、画像を歪曲（モダリティ・ギャップ）させることでノイズや不安定な結果を招く。

さらに、これらを単純に組み合わせる（パッチワーク的な統合）と、信号が競合し性能が低下することが実証されました。本研究は、この「視覚と言語のバランスの崩壊」を解決するため、ビジョントークンという単一の核心資産を操作することで、強化と抑制を統合する新しいフレームワークを提案します。

2. 手法：統合された潜在表現較正フレームワーク

本研究は、ビジョントークンが「強化」と「較正（抑制）」という 2 つの異なる役割を同時に果たし得るという 3 つの核心的発見に基づいています。

3 つの核心的発見 (Key Findings)

不均衡の診断 (F1): 生成が進むにつれて視覚アテンションは急激に減衰し、幻覚が発生しやすくなる。
意味的補完性 (F2): 元の画像と拡張（Augmented）画像のビジョントークンは、互いに補完的な視覚的意味を持ち、視覚的アンカーを強化できる。
情報ギャップの優位性 (F3): 画像レベルの歪曲（モダリティ・ギャップ）よりも、潜在空間でトークンを削除する（情報ギャップ）方が、より安定したバイアス探査（負のサンプル生成）に適している。

提案フレームワークの構成

提案するフレームワークは、デコーディング段階ではなく、中間表現（Intermediate Representations）レベルで動作するトレーニング不要の手法です。

A. 協調的視覚較正 (Synergistic Visual Calibration: SVC)

目的: 視覚信号の減衰（F1）に対抗し、視覚的 grounding を強化する。
仕組み:
- 入力画像にランダムな水平反転、ガウシアンブラー、塩コショウノイズを適用した「拡張画像」を生成。
- 元の画像と拡張画像のビジョントークンを結合し、協調的な視覚メモリバンク（ $V_{syn}$ ）を作成。
- 特定の中間層（例：16 層目）において、この $V_{syn}$ を Key/Value としてアテンション計算を行い、生成中の隠れ状態に視覚的文脈を注入します。
- これにより、視覚情報が薄れるのを防ぎ、モデルを視覚的に再接地させます。

B. 因果表現較正 (Causal Representation Calibration: CRC)

目的: 言語モデルのテキスト慣性（バイアス）を抑制し、幻覚を除去する。
仕組み:
- 負のサンプルの生成: 元のビジョントークンからランダムにトークンを削除（Pruning）し、極端に少ないトーク数（例：5 トークン）のみ残した「負のサンプル」を作成。これは「情報ギャップ」に基づいています。
- 幻覚方向ベクトルの抽出: 元の入力と負のサンプルを並列にモデルに通し、その隠れ状態の差分（ $\Delta H$ ）を計算します。この差分は「視覚情報が欠落した際に現れるバイアス（幻覚方向）」を表します。
- 較正: 生成ステップごとに、このバイアス方向ベクトルを隠れ状態から減算（または逆方向へ補正）することで、バイアスを除去し、視覚的事実に基づく表現を維持します。

3. 主要な貢献

問題の再定義: 幻覚対策を「視覚と言語のバランス問題」として再定義し、既存の分離アプローチの限界と単純結合の失敗を明らかにしました。
初の統合フレームワーク: ビジョントークンの二重の可能性（強化と抑制）を活用し、中間表現レベルで動作する初の統合的トレーニング不要フレームワークを提案しました。
新規モジュールの導入: SVC（視覚的補完による強化）と CRC（情報ギャップに基づくバイアス除去）という 2 つの効率的なモジュールを実装し、両者を調和させました。

4. 実験結果

LLaVA-1.5、Shikra、MiniGPT-4、InstructBLIP などの主要な MLLM において、以下のベンチマークで評価されました。

オブジェクト幻覚ベンチマーク (POPE, CHAIR):
- POPE: LLaVA-1.5 において、GQA スプリットで 81.54% の精度を達成（既存の最良手法を凌駕）。平均して 2% 絶対精度の向上。
- CHAIR: 生成される幻覚オブジェクトの数を大幅に削減（例：LLaVA-1.5 で CHAIRI スコア 18.1）。
総合ベンチマーク (MMHal-Bench, MME):
- 幻覚を抑制しつつ、モデルの一般的な知覚・推論能力（MME の Percept/Cognition スコア）を維持、あるいは向上させました。
計算コスト:
- 推論遅延はベースライン（Greedy）に対してわずか 1.06 倍 のオーバーヘッドのみ。
- VCD や VISTA などの既存手法と比較して、遅延とメモリ使用量の両面で優位性があります。

5. 意義と結論

本研究は、MLLM の幻覚対策において、視覚強化と言語抑制を対立する要素として扱うのではなく、ビジョントークンという共通の基盤を操作することで両者を統合するパラダイムシフトを示しました。

技術的意義: 画像レベルの歪曲に頼らず、潜在空間でのトークン操作（情報ギャップ）を用いることで、よりクリーンで安定したバイアス除去を実現しました。
実用性: トレーニング不要であり、極めて低い計算オーバーヘッドで SOTA 性能を達成するため、実世界への適用可能性が高いです。

この「一つのトークン、二つの運命（強化と抑制）」というアプローチは、マルチモーダルモデルの信頼性向上に向けた重要な一歩となります。

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination