Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

本論文は、視覚エンコーダの多層特徴をクエリに応じて動的に融合する軽量モジュール「TGIF」を提案し、マルチモーダル大規模言語モデルにおける視覚的根拠の欠如による幻覚を軽減しつつ、多様なベンチマークで性能を向上させる手法を示しています。

Chenchen Lin, Sanbao Su, Rachel Luo, Yuxiao Chen, Yan Wang, Marco Pavone, Fei Miao

公開日 2026-02-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 問題:AI はなぜ「幻覚」を起こすのか?

まず、現在の画像認識 AI(マルチモーダル大規模言語モデル)がどう動いているか想像してみてください。

AI は、画像を「写真屋(ビジョンエンコーダー)」に預けて、その写真の分析結果を「料理人(言語モデル)」に渡します。
しかし、これまでの仕組みでは、写真屋は「料理人」に「完成した料理(深い意味の抽象的な特徴)」だけを渡していました。

  • 浅い層(浅い情報): 物体の形、色、エッジ(輪郭)などの「素材そのもの」。
  • 深い層(深い情報): 「これは犬だ」「これは車だ」といった「意味や概念」。

【問題点】
料理人が「この画像にコップはありますか?」と聞かれたとき、もし写真屋が**「深い情報(意味)」だけを渡してしまうと、料理人は「コップ」という言葉のイメージや、過去の経験(「コップはよくあるものだから、きっとあるに違いない」)だけで答えてしまいます。
実際にはコップがなくても、「コップっぽいもの(例えば赤い花瓶)」を見て、「ある!」と自信満々に答えてしまうのです。これが
「幻覚(ハルシネーション)」**です。

逆に、「浅い情報(素材)」だけを渡すと、料理人は「形や色」しか見えないので、「コップの形があるか?」はわかりますが、「それがコップである」という意味がわからず、「わからない」と答えてしまうこともあります。

つまり、「どの深さの情報を渡すか」によって、AI の答え方が大きく変わってしまうことがわかったのです。


💡 解決策:TGIF(テキストガイド付き層融合)

この論文が提案したのが**「TGIF」**という新しい仕組みです。

これは、**「料理人の質問(テキスト)に合わせて、写真屋から渡す情報の深さを自動で調整する『賢い配達人』」**のようなものです。

🌟 具体的な仕組み

  1. 質問を聞く:
    料理人(AI)が「画像にコップはある?」と聞くと、配達人(TGIF)はまずその質問の内容を分析します。

    • 「コップがあるか?」という事実確認の質問なら、**「浅い情報(形や輪郭)」**を重視して渡します。
    • 「この風景の雰囲気はどう?」という説明の質問なら、**「深い情報(意味や概念)」**を重視して渡します。
  2. 情報の混ぜ合わせ:
    配達人は、写真屋が持っている「浅い層から深い層までのすべての情報」を一度に受け取り、質問の内容に合わせて**「どの層の情報を何%混ぜるか」**を瞬時に計算します。

    • 例:「コップはあるか?」→ 浅い情報 80% + 深い情報 20%
    • 例:「この写真はどんな雰囲気?」→ 浅い情報 20% + 深い情報 80%
  3. 最適な情報を渡す:
    この「混ぜ合わせた情報」を料理人に渡すので、料理人は**「必要な情報」**だけを使って、正確に答えることができます。


🎯 なぜこれがすごいのか?

  • 無駄がない: 画像を再学習したり、AI のサイズを大きくしたりする必要はありません。既存の「写真屋」と「料理人」の間に、小さな「配達人(TGIF)」を挟むだけです。
  • 幻覚が減る: 「コップはあるか?」と聞かれたとき、AI は「コップっぽい意味」だけで答えず、「実際にコップの形があるか」を慎重に確認するようになります。
  • 何でもできる: 文字認識(OCR)のような細かい作業も、意味を理解する推理も、どちらも得意になります。

📝 まとめ

これまでの AI は、**「どんな質問でも、同じ『完成した料理(深い意味)』だけを渡していた」**ため、質問に合わない答え(幻覚)を出してしまっていました。

この論文のTGIFは、**「質問の内容に合わせて、生野菜(浅い情報)からスープ(深い情報)まで、最適なレシピで混ぜ合わせて渡す」**という仕組みです。

これにより、AI は**「自信過剰な嘘」を減らし、「画像に本当にあるもの」**を正確に認識して話せるようになったのです。まるで、料理人が「何を作りたいか」に合わせて、最高の食材の組み合わせを選べるようになったようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →