Each language version is independently generated for its own context, not a direct translation.

パルマー（PaLMR）：AI に「嘘をつかずに、正しく見る」ことを教える方法

この論文は、**「AI が画像を見て問題を解くとき、なぜか『見えないもの』を見て答えを導いてしまう（幻覚）」**という問題を解決するための新しい方法、「PaLMR（パルマー）」を紹介しています。

まるで、「答えが合っていれば、どんなに嘘をついても OK」というルールで育った子供が、実は「答えは合ってるけど、根拠がウソ」だったという悲劇を繰り返していたのです。パルマーは、その子供に**「まず、目の前の現実を正直に観察しなさい」**と教える新しい教育法です。

1. 従来のAIの悩み：「答えは正解！でも、見てるものが違う！」

これまでのAI（マルチモーダルモデル）は、画像を見て質問に答える練習をしてきました。しかし、従来の練習方法には大きな欠点がありました。

従来のルール： 「最終的な答えが合っていれば、満点！」
AIの行動： 「えっと、この画像には『赤いリンゴ』が3つあるな（実際は青いリンゴが2つ）。でも、計算すると答えが『2』になるから、3つって書いておこう。答えが合ってるし、OK！」

これを**「ハルシネーション（幻覚）」**と呼びます。AIは、画像の事実（青いリンゴ）を無視して、頭の中の知識（赤いリンゴのイメージ）だけで適当に理由をつけて、たまたま答えが合っただけの状態です。

例え話：
料理のコンテストで、審査員が「味付けが完璧なら、材料が何を使ってもOK！」と言ったとします。
すると、料理人は「本当は牛肉を使ってるのに、『豚肉』と嘘をついて説明する」ようになります。味（答え）は美味しいけど、説明（プロセス）が嘘つきなんです。

2. パルマー（PaLMR）の登場：「プロセス（過程）も採点する」

パルマーは、この「嘘つきなプロセス」を許さない新しい教育システムです。
「答えが合ってるか」だけでなく、「その答えに至るまでの考え方が、画像と一致しているか」も厳しくチェックします。

パルマーの仕組みは、2つのステップで構成されています。

ステップ1：「正直な観察日記」を作る（データ層）

まず、AIに「この画像には何が見えますか？」と聞きます。

従来のAI： 「うーん、赤いリンゴが3つかな？」（実際は違うのに、適当に言う）
パルマーの指導： 「待て待て！まずは『青いリンゴが2つ、緑の箱が1つ』と、事実だけをリストアップしなさい。それができなきゃ、次のステップに進めないよ！」

これにより、AIは「まず正しく見る」ことを強制されます。

ステップ2：「正解の道筋」で褒める（最適化層）

AIが考えた答えの道筋（思考プロセス）を、**「2つの道筋を比べて、どちらがより正直か？」**というゲーム形式で評価します。

道筋A： 「画像に赤いリンゴが3つあると書いてある（嘘）→ 答えは2」
道筋B： 「画像に青いリンゴが2つあると書いてある（事実）→ 答えは2」

パルマーは、**「答えが同じでも、道筋B（事実に基づいたもの）を高く評価する」**ようにAIを訓練します。
これにより、AIは「嘘をついて正解を出す」よりも、「事実を正しく見て、論理的に正解を出す」ことを学ぶようになります。

3. なぜこれがすごいのか？

パルマーを使えば、AIは以下のような変化を起こします。

嘘をつかなくなる： 「見えないもの」を勝手に想像しなくなります。
信頼できる： 「なぜその答えになったのか？」という説明が、画像と一致するようになります。
難しい問題も解ける： 複雑な図やグラフでも、事実をベースに論理的に考える力が身につきます。

例え話：
従来のAIは、**「勘で正解を当てる占い師」でした。たまたま当たっても、根拠は不明です。
パルマーを学んだAIは、「証拠を一つ一つ確認する探偵」**になりました。たとえ答えが同じでも、その過程が「事実に基づいている」ため、誰が見ても納得できる信頼性があります。

まとめ

この論文が伝えたいことはシンプルです。
「AIに『正解』だけ教えるのではなく、『正しく見る』ことを教えるべきだ」。

パルマーは、AIが「答え合わせ」だけでなく、「観察と思考のプロセス」そのものを正直に行うように導く、画期的なトレーニング方法です。これにより、AIはより人間らしく、信頼できる「知能」として進化していくことが期待されています。

Each language version is independently generated for its own context, not a direct translation.

PaLMR: 多モーダル推論の忠実性向上に向けたプロセスアライメント

技術的サマリー（日本語）

本論文「PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment」は、大規模マルチモーダル言語モデル（MLLM）における推論プロセスの「幻覚（Hallucination）」問題、特に視覚的証拠と推論過程の不一致を解決するための新しいフレームワークを提案しています。

1. 背景と課題

近年、強化学習（RL）を用いた推論能力の向上は、LLM や MLLM の分野で大きな進歩を遂げています（例：DeepSeek-R1, R1-Zero など）。しかし、既存の強化学習アプローチには以下の根本的な課題が存在します。

結果中心の報酬設計: 従来の報酬関数は、最終的な回答の正解性（Outcome Correctness）のみを重視しています。
推論プロセスの幻覚: モデルが視覚的な事実を誤って認識・記述しているにもかかわらず（例：画像に 4 つの物体があるのに「3 つ」と記述する）、事前知識やテキストのバイアスに基づいて偶然正解を導き出すケースが多発しています。
プロセスと知覚の乖離: 最終回答が正しくても、その根拠となる推論過程（Chain-of-Thought）が視覚的証拠と整合していない場合、モデルの信頼性と解釈性が損なわれます。

既存の手法は「答えが合っていれば良い」という姿勢に留まり、推論の各ステップが視覚的に忠実であるか（Faithful）を評価・最適化するメカニズムが不足していました。

2. 提案手法：PaLMR

PaLMR（Process Alignment for Multimodal Reasoning）は、推論の「結果」だけでなく「プロセス」そのものを視覚的証拠と整合させるためのユニファイドフレームワークです。このフレームワークは、以下の 2 つの相補的なレイヤーで構成されています。

2.1. 知覚整合データ層 (PaDLayer: Perception-Aligned Data Layer)

高品質で検証可能な視覚的ファクトに基づいた推論データを構築する層です。

データ収集とフィルタリング: FineVision データセットなどから多様なドメイン（幾何学、チャート、科学など）のデータを抽出し、モデルの学習可能性（Learnability）に基づいてフィルタリングを行います。単純すぎる問題や、モデルが常に誤答するノイズを含むサンプルを除外し、約 4,700 件の高品質なサンプルを抽出します。
構造化された疑似正解（Pseudo GTs）の生成: Gemini などの強力なモデルを用いて、画像の詳細な構造化記述（オブジェクト、属性、空間関係など）を生成し、これを「視覚的グランドトゥルース」として利用します。
参照サンプルの作成: ベスト・オブ・N（BoN）戦略などを用いて、視覚的に整合性の高い推論経路を参照データとして用意します。

2.2. プロセス整合最適化層 (PaOLayer: Process-Aligned Optimization Layer)

視覚的忠実性を強化するための強化学習最適化層です。

視覚認識スコアリング (Perception-Aware Scoring):
- 従来のポイントごとの評価（Point-wise）ではなく、**ペアワイズ比較（Pairwise Comparison）**を採用します。
- 生成された推論経路と、高品質な参照経路を比較し、どちらが視覚的証拠（Pseudo GT）に忠実かを LLM ジャッジ（Qwen3-30B など）に判定させます。これにより、評価バイアスを低減し、人間との整合性を高めます（88% 以上の一致率を達成）。
階層的報酬融合 (Hierarchical Reward Fusion):
- 提案する V-GRPO (Vision-Guided Group Relative Policy Optimization) において、報酬関数を以下のように設計します。
  $R_{V-GRPO}(\tau) = S_{p,vis}(\tau) \cdot (\alpha S_{p,ans}(\tau) + (1-\alpha) S_{p,fmt}(\tau))$
- $S_{p,vis}$ (視覚忠実度スコア): 二値スコア（0 または 1）。推論過程に視覚的幻覚が含まれる場合、このスコアが 0 となり、最終回答が正しくても報酬全体が 0 になります。これにより、「まず正しく見る」ことが「正しく推論する」ための必須条件となります。
- $S_{p,ans}$ (回答正解性) と $S_{p,fmt}$ (フォーマット正しさ): 視覚的整合性が保証された上で、最終的な正解と形式の正しさを評価します。

3. 主要な貢献

PaLMR フレームワークの提案: 知覚整合データ構築とプロセス整合最適化を統合し、推論プロセス全体の視覚的忠実性を強制する初めての包括的なアプローチ。
V-GRPO トレーニングパラダイム: 視覚的整合性スコアを GRPO の報酬構造に組み込み、推論の各ステップで視覚的フィードバックを受けるように設計した新しい学習手法。
高い性能と安定性: 既存の RL 手法やベースラインモデルと比較して、推論の幻覚を大幅に削減し、視覚的整合性を向上させることを実証。

4. 実験結果

Qwen2.5-VL-7B をベースモデルとして、複数のベンチマークで評価を行いました。

ベンチマーク性能:
- HallusionBench: 視覚的幻覚の検出・防止に特化したベンチマークで、SOTA（State-of-the-Art）となる 70.9 のスコアを記録（ベースラインの 63.8 や GRPO 単独の 66.7 を上回る）。
- MMMU, MathVista, MathVerse: 一般的な推論タスクでも、7B モデルの中で最高レベルの性能を維持しつつ向上させました。
- データ効率: 約 4,700 件の高品質データのみで、12,000 件以上のデータを用いた他モデル（OpenVLThinker など）を上回る性能を発揮しました。
モデル規模への汎用性:
- 3B から 32B までの Qwen2.5-VL シリーズにおいて、一貫して GRPO ベースラインを上回る性能向上が見られました。
- ただし、Qwen3-VL-8B のようなより高度なモデルでは、アノテーター（ジャッジモデル）の能力がターゲットモデルに追いつかない場合、性能向上が頭打ちになる傾向が確認されました。
推論の質:
- 視覚的幻覚を含む誤った推論（例：画像の物体数を誤って数える）が大幅に減少し、視覚的証拠に基づいた論理的な推論チェーンが生成されるようになりました。
- 学習の安定性も向上し、報酬の振動が少ないことが確認されました。

5. 意義と結論

PaLMR は、マルチモーダル AI の信頼性を高めるための重要な一歩です。単に「正解を出す」ことだけでなく、「なぜその答えに至ったか」という推論過程が視覚的現実と一致していることを保証するアプローチは、医療、科学、法務など、高い正確性が求められる分野での MLLM の実用化に不可欠です。

本研究は、強化学習における報酬設計を「結果」から「プロセス」へとシフトさせることで、モデルの解釈性と信頼性を同時に向上させることができることを示しており、今後のマルチモーダル推論研究の方向性を示唆しています。

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment