Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

この論文は、マルチ画像タスクにおける大規模視覚言語モデルの幻覚を軽減するため、画像間の注意メカニズムを調整し、真の視覚証拠に基づく選好学習を行う構造化フレームワーク「CAPL」を提案し、マルチ画像の性能向上と単一画像タスクへの汎化能力の維持を実現したことを示しています。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「複数の画像を見て、AI が嘘をついてしまう(幻覚を起こす)問題を、どうやって解決するか」**というテーマについて書かれています。

AI(特に大規模な視覚言語モデル)は、1 枚の画像を見るのは得意ですが、**「2 枚以上の画像を比べて」**何かを説明させると、よく間違ったことを言ったり、画像にないものを作り出したりします。

この論文の著者たちは、その原因を**「画像同士が会話できていないこと」「AI が学習する時の教え方が甘かったこと」にあると考え、「CAPL(キャップル)」**という新しい仕組みを提案しました。

以下に、専門用語を避け、わかりやすい例え話で解説します。


1. なぜ AI は嘘をつくのか?(問題の正体)

Imagine(想像してみてください):
AI は、**「左から右へ順番に読む」**というルールで本を読んでいるようなものです。

  • 1 枚目の画像を見て、2 枚目の画像を見て、3 枚目の画像を見て……という順番です。

このルールだと、「1 枚目の画像は、2 枚目の画像が何を持っているかを知ることができません」
逆に、2 枚目の画像は 1 枚目の画像を知っています。

【例え話:会議室でのトラブル】
2 人の人が画像について議論していると想像してください。

  • A さん(1 枚目の画像):「私は赤い犬を持っているよ」と言います。
  • B さん(2 枚目の画像):「私は青い猫を持っているよ」と言います。

しかし、今の AI のルールだと、B さんは A さんの話を聞いても、A さんは B さんの話を聞くことができません
だから、A さんは「B さんも赤い犬を持っているに違いない」と勝手に推測して、**「私たちは赤い犬を 2 匹持っている!」**と嘘をついてしまうのです。

これが**「画像間の幻覚(ハルシネーション)」**の原因です。画像同士が双方向に会話できていないため、AI は画像を見ずに「言葉の癖」だけで適当な答えを推測してしまいます。


2. 解決策:CAPL(キャップル)の 2 つの魔法

著者たちは、この問題を 2 つのステップで解決しました。

① 魔法のメガネ:「双方向の会話」を可能にする

まず、AI に**「画像同士が自由に会話できるメガネ」**を着せました。

  • 従来のルール:前の画像は後ろの画像を見られない。
  • 新しいルール:どの画像も、他のすべての画像と**「双方向」**に情報をやり取りできるようにしました。

【例え話:会議室の再編成】
会議室の壁を取り払って、全員が互いの顔を直接見られるようにしました。

  • A さんは B さんの猫を見て、「あ、君は猫を持ってるんだね」と確認できます。
  • B さんも A さんの犬を見て、「君は犬なんだね」と確認できます。

これにより、AI は「赤い犬を 2 匹」という嘘をつかずに、「犬と猫が 1 匹ずつ」という正しい事実を認識できるようになりました。
ただし、すべての情報をすべて混ぜると混乱するので、「重要な部分(キーとなる情報)」だけを選んで会話させるという工夫もしています。

② 厳しいコーチング:「嘘つきトレーニング」

次に、AI に**「正解と不正解を比べる」**という特別なトレーニングをさせました。

  • 正解の練習(Good Sample)
    画像同士が会話できる状態で、「正しい答え」を AI に言わせます。
  • 嘘の練習(Bad Sample)
    あえて**「画像同士の会話線を切断」**した状態で質問します。
    • すると、AI は画像を見られず、自分の勘(言葉の癖)だけで答えざるを得なくなります。
    • この時、AI は**「赤い犬を 2 匹いる!」**という、よりひどい嘘をつきます。

【例え話:探偵の訓練】

  • コーチ:「さあ、この 2 枚の写真をよく見て答えなさい(正解)」
  • コーチ:「じゃあ、目を隠して、写真を見ずに答えなさい(嘘)」
    • AI は目を隠すと、すぐに「赤い犬 2 匹!」と間違った答えを出します。
  • コーチ:「ほら見ろ!目を隠すと嘘をつくだろう?だから、**『写真を見ながら会話する状態』**こそが正解なんだよ!」

このように、「画像同士が会話した時の答え」と「会話できない時の嘘の答え」を徹底的に比較させることで、AI の脳(パラメータ)に「画像を見ずに推測するのはダメだ」というルールを深く刻み込みました。


3. 結果:どう変わった?

この新しい方法(CAPL)を取り入れた結果、以下のような良いことが起きました。

  1. 嘘が減った:複数の画像を比べても、「ないものがある」という嘘をつくことが激減しました。
  2. 推理力が上がった:画像の関係を正しく理解できるようになり、複雑な質問にも正しく答えられるようになりました。
  3. 1 枚の画像でも大丈夫:実は、このトレーニングは「複数の画像」で行いましたが、**「1 枚の画像を見るだけ」**という普通のタスクでも、AI の性能が落ちるどころか、少し良くなりました。
    • 理由:「嘘をつかないようにする訓練」を積んだので、1 枚の画像を見ても、勝手に想像して嘘をつく癖がなくなったからです。

まとめ

この論文は、**「AI に画像同士を『会話』させ、さらに『嘘をついた時の自分』を見せつけて反省させる」**という、とても人間らしいアプローチで、AI の幻覚(嘘)を減らすことに成功しました。

まるで、**「仲間同士で情報を共有し合い、かつ『独断で判断する危険性』を痛感させる」**ことで、より賢く、信頼できる AI を作ろうという試みです。