MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

この論文は、大規模視覚言語モデルの幻覚を軽減するため、モデルの隠れ状態を 2 次元セマンティックマップとして捉え、層内・層間両方のトークンを集約する「レイヤワイズ・クリスス・クロス・アテンション」と「グローバル・ローカル・ログイット融合」を組み合わせたトレーニング不要のデコーディング手法「MAP」を提案し、事実性の向上を実証しています。

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎨 物語:「AI の目と、2 次元の地図」

1. 問題:AI が「幻覚」を見てしまう

最近の「大規模視覚言語モデル(LVLM)」という AI は、画像を見て「これは猫だ」「これは赤い車だ」と説明するのが得意です。
でも、たまに**「実際には写っていない猫」「存在しない色」を勝手に作り出して話してしまいます。これを「幻覚(ハルシネーション)」**と呼びます。

これまでの対策は、AI の「頭の中(隠れ状態)」を**「1 次元の列(行)」**として見ていました。

  • 縦方向(レイヤー): 深い層と浅い層を比べる。
  • 横方向(トークン): 単語と単語のつながりを比べる。

でも、これでは「本当の事実」が AI の頭の中に**「あちこちに散らばって隠れている」**ことに気づいていませんでした。

2. 発見:「2 次元の地図」を見つけた!

この研究チームは、AI の頭の中を**「1 次元の列」ではなく、「2 次元の地図(マップ)」**として捉え直しました。

  • 縦軸: 処理の深さ(どの段階の思考か)
  • 横軸: 画像のどの部分か(どの単語か)

この「2 次元の地図」を詳しく調べると、「本当の事実(例:ベッドがある)」という情報は、特定の場所だけでなく、地図のあちこちに散らばって存在していることがわかりました。
これまでの方法は「特定の場所だけ」を見ていましたが、この研究は**「地図全体を広く見渡す」**ことで、散らばった「本当の証拠」を集めようと考えました。

3. 解決策:MAP(地図レベルの処理)

彼らが提案した新しい方法は**「MAP(Map-Level Attention Processing)」**という名前です。
これは、AI が画像を説明する際に、以下の 2 つのステップで「幻覚」を退治します。

① 「クロス・クロス」な探偵ゲーム(Layer-Wise Criss-Cross Attention)

  • イメージ: 探偵が事件現場(画像)を調べる時、ただ前後の隣人(単語)だけでなく、**「縦にも横にも」**関係ありそうな人々(他の層の他の単語)を呼び出して情報を集めます。
  • 仕組み: AI が「これは何?」と考える時、特定の単語だけでなく、その単語の**「縦(深さ)」と「横(位置)」の交差点にあるすべての情報」を集めて、「本当にベッドがあるのか?」**という証拠を積み上げます。
  • これにより、AI は「たぶんあるだろう」という勘違いではなく、「あちこちの証拠から、間違いなくある」と判断できるようになります。

② 「地元の情報」と「全体像」の融合(Global-Local Logit Fusion)

  • イメージ: 料理を作る時、**「地元の新鮮な野菜(細かい詳細)」「全体の味付け(大きな文脈)」**の両方をバランスよく混ぜるようなものです。
  • 仕組み:
    • ローカル: 今話している単語の直近の証拠。
    • グローバル: 画像全体や深い思考からの証拠。
    • この 2 つを混ぜ合わせて「答え(確率)」を出します。これにより、細かい部分にこだわりすぎたり、全体像を見失ったりするのを防ぎ、より安定した回答になります。

4. 結果:訓練なしで劇的に改善!

この方法は、AI を最初からやり直す(再学習させる)必要がありません。**「推論(答えを出す)時だけ」**この新しい「地図の見方」を取り入れるだけで済みます。

  • 実験結果: さまざまな画像認識のテストで、他の最新の手法よりも「幻覚」を減らし、正確な説明ができるようになりました。
  • 効率: 計算コストも増えず、速く処理できます。

🌟 まとめ

この論文の核心は、**「AI の頭の中を『1 列の線』ではなく『広大な地図』として捉え直し、地図のあちこちに散らばっている『本当の証拠』を集めて、嘘(幻覚)を消し去ろう」**というアイデアです。

まるで、**「単に隣の人に聞くだけでなく、街中のあちこちの情報を集めて真実を突き止める」**ような、より賢い AI の聞き方・考え方を提案した素晴らしい研究です。