Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

この論文は、拡散モデルを用いて生成した対照的画像から視覚誘発性ハルシネーションの低ランク部分空間を特定し、推論時に中間隠れ状態をその部分空間から射影することで、学習不要で大規模視覚言語モデルのハルシネーションを抑制する「CIPHER」という手法を提案しています。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が目にしたものとは違うことを勝手に喋ってしまう(幻覚)」**という問題を解決する新しい方法「CIPHER(サイファー)」について書かれています。

まるで**「AI の脳に、嘘を見抜くための『フィルター』を装着する」**ような技術です。

以下に、専門用語を使わず、身近な例えを使って解説します。


🕵️‍♂️ 問題:AI の「幻覚(ハルシネーション)」とは?

大型の画像認識 AI(LVLM)は、写真を見て「これはリンゴです」と正しく答えることができます。しかし、ときどき**「写真にはないのに、リンゴの隣に猫がいる!」**と、実際には存在しないものを勝手に喋ってしまいます。これを「幻覚」と呼びます。

これまでの対策は、AI 自体を最初から作り直す(再学習させる)という、とても時間とコストがかかる方法ばかりでした。

💡 解決策:CIPHER(サイファー)の仕組み

この論文の「CIPHER」は、AI を作り直すことなく、「テストの瞬間(推論時)」だけに、AI の思考プロセスに少し手を加えることで幻覚を防ぎます。

その方法は、**「もし写真が嘘だったらどうなるか?」**をシミュレーションして、その「嘘の癖」を特定し、消し去るというものです。

ステップ 1:嘘の「教科書」を作る(オフライン学習)

まず、AI に「嘘の画像」を見せます。

  • 本物の写真:「テーブルに野菜がある」
  • 嘘の写真(CIPHER が作る):AI に「野菜がない」と言いつつ、画像生成 AI(拡散モデル)を使って、「野菜が勝手に増えた」ような画像を作ります。

そして、AI にこの「嘘の画像」と「本当の画像」の両方を見せ、**「AI の頭の中で何がどう変わったか(思考のベクトル)」**を記録します。

  • 例え話
    • 本物の写真を見た時の思考:「野菜があるな」
    • 嘘の写真を見た時の思考:「野菜があるな(でも、実際は違うぞ!)」
    • この**「思考のズレ」を分析すると、「嘘をつこうとする時の AI の脳の動き」が、特定の方向( subspace)に偏っていることがわかりました。これを「幻覚の方向」**と呼びます。

ステップ 2:テスト時に「幻覚の方向」を消す(オンライン実行)

いよいよ本番です。新しい写真を見せるとき、AI が思考している瞬間に、先ほど見つけた**「幻覚の方向」を強制的に消し去ります**。

  • 例え話
    • AI が「あ、ここに猫がいる!」と喋ろうとして思考を巡らせている瞬間、「猫がいる」という思考のベクトルを、AI の脳内から「投影(プロジェクション)」という技術で弾き飛ばします。
    • その結果、AI は「猫はいない」という正しい思考に戻り、嘘をつかなくなります。

🌟 この技術のすごいところ

  1. AI の再学習が不要
    • 従来の方法は、AI を「勉強し直す」必要があり、何週間もかかりました。CIPHER は**「テスト中にだけ、思考を補正する」**だけなので、即座に使えます。
  2. スピードが速い
    • 嘘をつかないようにするために、AI に何度も考え直させる(何回も計算させる)必要がありません。1 回で正解を出せるので、非常に高速です。
  3. 視覚的な嘘に強い
    • 以前の技術は「言葉の癖」を直すことに重点を置いていましたが、CIPHER は**「画像(視覚)」から来る嘘**に特化しています。写真を見て「ないもの」を想像してしまう癖を、画像そのものを使って直すため、効果が高いです。

🎨 まとめ:どんなイメージ?

この技術は、**「AI の脳に、嘘を見抜くための『魔法のメガネ』をかける」**ようなものです。

  • メガネをかける前:AI は「ないもの」まで見えてしまい、嘘をついてしまいます。
  • メガネをかけた後:AI は「幻覚の方向」を自動的に無視できるようになり、「あるもの」だけを正確に見られるようになります。

しかも、このメガネは**「AI の性格(学習済みデータ)を変えずに、その場限りの補正」**として機能するため、AI の能力を落とさずに、嘘だけを取り除くことができます。

この「CIPHER」という方法は、AI がより信頼できる存在になるための、非常に効率的で賢い解決策です。