Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

本論文は、テキストと視覚情報のバイアスを第一-order 勾配を用いて推定し、追加モデルや微調整なしで既存のマルチモーダル大規模言語モデルの幻覚を抑制し視覚的根拠を強化する推論ベースの手法「GACD」を提案するものである。

Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が目で見ているはずの画像を、実は見ていないふりをして、勝手に想像で答えてしまう(幻覚)」**という問題を解決する新しい方法を紹介しています。

この方法を**「GACD(グラデーション・ベース・セルフ・リフレクション)」と呼びますが、難しい名前ではなく、「AI 自身に『本当に見てる?』と自問自答させる鏡」**のようなものだと考えてください。

以下に、誰でもわかるような比喩を使って解説します。


1. 問題:AI は「おしゃべり好き」で「記憶違い」がある

Multimodal Large Language Models(マルチモーダル大規模言語モデル)は、画像を見て説明する天才的な AI です。しかし、2 つの大きな「癖(バイアス)」を持っています。

  • 癖 1:「言葉の先入観」が強すぎる(Text-Visual Bias)

    • 例え: 料理のレシピ本(テキスト)を丸暗記した料理人が、目の前の鍋(画像)をほとんど見ずに、本に書いてあるとおりに「じゃがいもが入ってるね!」と勝手に言ってしまう状態です。
    • 現象: AI は、画像そのものよりも、質問文や「これまでに言ったこと」に頼りすぎて、実際には写っていないものを想像して喋ってしまいます。
  • 癖 2:「よく一緒にいるもの」を混同する(Co-occurrence Bias)

    • 例え: 「椅子」を見ると、脳が勝手に「テーブル」も思い浮かべてしまう状態です。実際には椅子しかないのに、「あ、椅子があるからテーブルもあるはずだ」と勝手に補足してしまいます。
    • 現象: 画像に「椅子」しか写っていないのに、AI は「テーブル」も存在すると嘘をついてしまいます。

2. 解決策:AI に「計算ドリル」をさせて、自覚させる

これまでの方法は、AI を最初から作り直す(再学習させる)か、別の AI を呼び出してチェックさせるなど、コストがかかりました。
しかし、この論文のGACDは、「AI が今、何に一番注目しているか」を計算で瞬時にチェックし、必要なら強制的に目を画像に向けるという、**「推理小説の探偵」**のようなアプローチをとります。

具体的な仕組み(3 つのステップ)

  1. 「誰が話している?」を計算する(グラデーション分析)

    • AI が「次は何と言おうか?」と考えた瞬間、**「この言葉は、画像のどの部分の影響を強く受けて出たのか?」**を数学的に計算します。
    • 例え: AI が「ビール」と言おうとしたとき、「フォーク」という言葉の影響が強すぎて、画像の「フォーク」を見て「ビールもきっとあるはずだ」と推測しているのか、それとも本当に画像に「ビール」が写っているのかを、**「影響度」**という数値で測ります。
  2. 「邪魔な連想」を消す(共起バイアスの抑制)

    • もし「椅子」を見て「テーブル」と言おうとしているなら、「椅子」と強く結びついている「テーブル」という想像を、AI の頭から強制的に消し去ります。
    • 例え: 「椅子があるからテーブルもあるに違いない」という思い込みを、「いや、画像にテーブルは写ってないよ」という**「アンカー(錨)」**で引き留めるような感じです。
  3. 「画像を見る力」を強化する(バランス調整)

    • AI が「言葉(テキスト)」ばかりに頼りすぎている場合、「画像(ビジュアル)」からの信号を大きく増幅させます。
    • 例え: 料理人がレシピ本ばかり見ていたら、「目を皿(画像)に集中させろ!」と大声で叱り、目の前の食材の匂いや形に集中させるようなイメージです。

3. この方法のすごいところ

  • 追加の道具いらず: 特別な AI や追加のデータを用意する必要はありません。既存の AI に「鏡(GACD)」を当てて、推理させるだけです。
  • 細かな調整: 「画像全体」を丸ごと見るのではなく、「フォーク」という単語に関係するピクセルだけ、あるいは「ビール」という想像に関係するピクセルだけを狙って調整します。まるで**「ピンセット」**で細かい部分を修正するようです。
  • 途中で止める機能: もし AI が長々と話し始めて、画像とのつながりが薄れてきたら(「もう見てないよ」という状態)、「もう喋るな!」と自動的に止めます。 これにより、でたらめな続きを防止します。

4. 結果:どう変わった?

実験の結果、この方法を使うと:

  • 嘘(幻覚)が減る: 「写っていないビール」や「存在しないテーブル」を言わなくなります。
  • 正確性が上がる: 画像に写っているものを正しく見抜く能力が向上します。
  • 情報量は減らない: 嘘を減らしても、必要な詳細な情報(「赤い服を着ている」など)は残ります。

まとめ

この論文は、**「AI に『自分の発言が、本当に画像に基づいているか?』を計算させて、思い込みを正させる」**という、シンプルながら強力なアイデアを提案しています。

まるで、**「AI という生徒に、テスト中に『本当に問題文(画像)を見て答えを書いているか?』と先生がチェックし、勘違いしている部分をすぐに修正させる」**ような仕組みです。これにより、AI はより信頼できる、真実を語るパートナーになることができます。