PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

この論文は、視覚的証拠の誤った認識を伴う推論プロセスの幻覚を解消し、最終的な正解だけでなく推論プロセス自体を視覚的事実と整合させるためのフレームワーク「PaLMR」を提案し、Qwen2.5-VL-7B における HallusionBench などで SOTA 性能を達成したことを報告しています。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

パルマー(PaLMR):AI に「嘘をつかずに、正しく見る」ことを教える方法

この論文は、**「AI が画像を見て問題を解くとき、なぜか『見えないもの』を見て答えを導いてしまう(幻覚)」**という問題を解決するための新しい方法、「PaLMR(パルマー)」を紹介しています。

まるで、「答えが合っていれば、どんなに嘘をついても OK」というルールで育った子供が、実は「答えは合ってるけど、根拠がウソ」だったという悲劇を繰り返していたのです。パルマーは、その子供に**「まず、目の前の現実を正直に観察しなさい」**と教える新しい教育法です。


1. 従来のAIの悩み:「答えは正解!でも、見てるものが違う!」

これまでのAI(マルチモーダルモデル)は、画像を見て質問に答える練習をしてきました。しかし、従来の練習方法には大きな欠点がありました。

  • 従来のルール: 「最終的な答えが合っていれば、満点!」
  • AIの行動: 「えっと、この画像には『赤いリンゴ』が3つあるな(実際は青いリンゴが2つ)。でも、計算すると答えが『2』になるから、3つって書いておこう。答えが合ってるし、OK!」

これを**「ハルシネーション(幻覚)」**と呼びます。AIは、画像の事実(青いリンゴ)を無視して、頭の中の知識(赤いリンゴのイメージ)だけで適当に理由をつけて、たまたま答えが合っただけの状態です。

例え話:
料理のコンテストで、審査員が「味付けが完璧なら、材料が何を使ってもOK!」と言ったとします。
すると、料理人は「本当は牛肉を使ってるのに、『豚肉』と嘘をついて説明する」ようになります。味(答え)は美味しいけど、説明(プロセス)が嘘つきなんです。

2. パルマー(PaLMR)の登場:「プロセス(過程)も採点する」

パルマーは、この「嘘つきなプロセス」を許さない新しい教育システムです。
「答えが合ってるか」だけでなく、「その答えに至るまでの考え方が、画像と一致しているか」も厳しくチェックします。

パルマーの仕組みは、2つのステップで構成されています。

ステップ1:「正直な観察日記」を作る(データ層)

まず、AIに「この画像には何が見えますか?」と聞きます。

  • 従来のAI: 「うーん、赤いリンゴが3つかな?」(実際は違うのに、適当に言う)
  • パルマーの指導: 「待て待て!まずは『青いリンゴが2つ、緑の箱が1つ』と、事実だけをリストアップしなさい。それができなきゃ、次のステップに進めないよ!」

これにより、AIは「まず正しく見る」ことを強制されます。

ステップ2:「正解の道筋」で褒める(最適化層)

AIが考えた答えの道筋(思考プロセス)を、**「2つの道筋を比べて、どちらがより正直か?」**というゲーム形式で評価します。

  • 道筋A: 「画像に赤いリンゴが3つあると書いてある(嘘)→ 答えは2」
  • 道筋B: 「画像に青いリンゴが2つあると書いてある(事実)→ 答えは2」

パルマーは、**「答えが同じでも、道筋B(事実に基づいたもの)を高く評価する」**ようにAIを訓練します。
これにより、AIは「嘘をついて正解を出す」よりも、「事実を正しく見て、論理的に正解を出す」ことを学ぶようになります。

3. なぜこれがすごいのか?

パルマーを使えば、AIは以下のような変化を起こします。

  • 嘘をつかなくなる: 「見えないもの」を勝手に想像しなくなります。
  • 信頼できる: 「なぜその答えになったのか?」という説明が、画像と一致するようになります。
  • 難しい問題も解ける: 複雑な図やグラフでも、事実をベースに論理的に考える力が身につきます。

例え話:
従来のAIは、**「勘で正解を当てる占い師」でした。たまたま当たっても、根拠は不明です。
パルマーを学んだAIは、
「証拠を一つ一つ確認する探偵」**になりました。たとえ答えが同じでも、その過程が「事実に基づいている」ため、誰が見ても納得できる信頼性があります。

まとめ

この論文が伝えたいことはシンプルです。
「AIに『正解』だけ教えるのではなく、『正しく見る』ことを教えるべきだ」

パルマーは、AIが「答え合わせ」だけでなく、「観察と思考のプロセス」そのものを正直に行うように導く、画期的なトレーニング方法です。これにより、AIはより人間らしく、信頼できる「知能」として進化していくことが期待されています。