Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見て、どちらの回答が優れているかを判断する」**という難しい課題を、とても賢く、かつ効率的に解決する方法を紹介しています。

タイトルは**「MJ1（マルチモーダル・ジャッジ 1 号）」**です。

これをわかりやすく説明するために、**「優秀な審査員」と「注意力の散漫な生徒」**という例えを使って解説します。

1. 問題：なぜ今の AI 審査員は失敗するの？

まず、今の AI には大きな弱点があります。それは**「画像を見る力が、文章を読む力に負けてしまう」**ことです。

例え話：
Imagine 想像してください。ある生徒（AI）に、2 枚の「お絵かき課題の提出物（画像）」と、それに対する「解説文」を見せ、「どちらが上手か？」と聞くとします。
- 今の AI の状態： 生徒は最初のうちは画像をよく見ています。でも、解説文を読み始めたり、長い文章を書き始めたりするにつれて、**「画像の記憶がどんどん薄れていく」**のです。
- 結果： 最終的に「どちらが優れているか」を判断するときは、画像をほとんど覚えていません。そのため、「文章が長かったから」「文法が綺麗だったから」という表面的な理由だけで判断してしまい、実際の画像の質を見逃してしまいます。これを論文では**「視覚的注意の減衰（Attention Decay）」**と呼んでいます。

2. 解決策：MJ1 の「2 つの魔法」

研究者たちは、この弱点を克服するために、AI に**「思考の型（手順）」と「特別なテスト」**の 2 つを教えました。

魔法その 1：「証拠のチェックリスト」を作る（Grounded Verification Chain）

MJ1 は、いきなり「A がいいね！」と結論を出しません。代わりに、**「観察 → 主張 → 検証 → 評価 → 採点」**という 5 つのステップを必ず踏むように設計されています。

例え話：
これは、裁判所の**「証拠調べ」**のようなものです。
1. 観察（Observations）： まず、画像をじっくり見て、「ここには赤いリンゴがある」「ここは空が青い」といった事実をメモします（これが一番重要！）。
2. 主張（Claims）： 次に、回答 A と B が「何と言っているか」を整理します。
3. 検証（Verification）： 「回答 A は『赤いリンゴ』と言っているが、メモには『赤いリンゴ』とあるか？」と事実と照らし合わせます。
4. 評価・採点： 最後に、この検証結果に基づいて点数をつけます。
ポイント： 画像を一番最初に詳しく見てメモを取ることで、後で画像のことを忘れるのを防ぎます。これだけで、AI の正解率が上がりました。

魔法その 2：「順番を入れ替えるテスト」（Counterfactual Consistency Reward）

AI は「左側にある回答（A）」を無意識に好む癖（バイアス）を持っていることがあります。これを直すためのテストです。

例え話：
審査員に「A と B を比べて」と言います。AI が「A がいい！」と言ったとしましょう。
次に、A と B の位置をガチャッと入れ替えて、「B と A を比べて」と言います。
- もし AI が「位置」だけで判断していたら、「今度は B が左にあるから、B がいい！」と答えてしまいます。これは**「嘘つき」**です。
- もし AI が「内容」を見て判断していたら、「中身は変わらないから、やっぱり A（元の左側）の方がいい」と、同じ結論を出します。
MJ1 は、この**「入れ替えても同じ結論が出るか」をチェックするテストを繰り返して、「本当に画像を見て判断しているか」**を厳しく訓練しました。

3. 驚きの結果：小さな AI が巨大な AI を倒す

この方法で訓練した MJ1 は、驚くべき結果を出しました。

サイズ： 脳（パラメータ）の大きさは30 億（ただし、実際に動くのは30 億のうち30 億の 10 分の 1 程度、つまり30 億の 30 億... 正確には「30 億パラメータのうち、30 億がアクティブ」という MoE 構造ですが、要は**「非常に軽量で小さい」**です）。
対戦相手： Google の巨大なモデル「Gemini-3-Pro」や OpenAI の「GPT-5」など、10 倍〜100 倍も大きいモデルたち。
結果： MJ1 は、30 億パラメータという小さなサイズで、巨大なモデルたちを見事に打ち破りました（MMRB2 というテストで 77.0% の正解率）。

4. まとめ：何がすごいのか？

この論文が教えてくれることはシンプルです。

「AI を大きくすればするほど賢くなる」わけではなく、「考え方の手順（思考の型）を正しく教えること」の方が、はるかに重要だ。

従来の考え方： 画像を見ながら長い文章を書くのは大変だから、もっと大きな脳（モデル）を作ろう。
MJ1 の考え方： 大きな脳じゃなくても、**「最初に証拠（画像）をメモする」「順番を変えても正解か確認する」という「賢い勉強法」**を身につければ、小さな脳でも天才になれる。

これは、AI 開発において「量（サイズ）」よりも「質（訓練方法）」が重要だという、とても重要な発見です。まるで、「暗記力のある巨大な生徒」よりも、「論理的に考えるコツを知っている小さな生徒」の方が、難しい問題に強いという話に似ています。

Each language version is independently generated for its own context, not a direct translation.

論文「Multimodal Judgment via Grounded Verification (MJ1)」の技術的サマリー

本論文は、マルチモーダル（画像とテキスト）の判断タスクにおいて、視覚的証拠に基づいた意思決定が困難であるという課題を解決するため、強化学習（RL）を用いて訓練されたマルチモーダル判別モデル「MJ1」を提案したものです。MJ1 は、大規模なパラメータを持つ先行モデル（Gemini-3-Pro など）を凌駕する性能を、30 億パラメータ（アクティブパラメータは 30 億）のモデルで達成しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

マルチモーダル判別モデル（Judge）は、生成された画像がユーザーの意図を満たしているかを評価し、RLHF（人間フィードバックによる強化学習）の報酬モデリングやベンチマーク評価において中心的な役割を果たします。しかし、現状のマルチモーダル判別モデルには以下の重大な課題があります。

視覚的証拠への接地（Grounding）の欠如: 現在の最先端モデル（Gemini-3-Pro, GPT-5 など）でも、マルチモーダル RewardBench 2 (MMRB2) における精度は 70〜76% 程度に留まり、オープンソースモデルは 64% 付近で頭打ちとなっています。
注意の減衰（Attention Decay）: 生成プロセスが進むにつれて、トランスフォーマーの深い層において視覚トークンへの注意重みが著しく減少します。その結果、最終的なスコアリング時にモデルは画像の内容を十分に参照できず、テキストの流暢さや長さなどの「ショートカット」に依存して判断を下してしまいます。
位置バイアス: モデルが回答の順序（A が先か B が先か）に依存して判断を偏らせる傾向があります。

これらの失敗は、モデルの規模不足ではなく、視覚証拠を処理・推論するメカニズムの構造的な欠陥に起因すると指摘されています。

2. 提案手法：MJ1

MJ1 は、Qwen3-VL-30B-A3B（300 億パラメータ、アクティブ 30 億）を基盤モデルとし、構造化された「接地検証チェーン（Grounded Verification Chain）」と「反事実的一貫性報酬（Counterfactual Consistency Reward）」の 2 つの主要な技術を採用しています。

2.1 接地検証チェーン (Grounded Verification Chain)

従来の自由形式の推論ではなく、以下の 5 つの構造化された段階を経て判断を下すように設計されています。これにより、推論の初期段階で視覚情報を抽出し、注意の減衰を防ぎます。

視覚的観察 (Observations, O): プロンプトと 2 つの候補回答（A, B）に含まれる画像から、テキストコンテキストが最小で視覚注意が最大となる段階で、画像の視覚的内容を記述します。
主張の抽出 (Claims, C): 各回答から主張（Claim）を分解して抽出します。
整合性検証 (Verification, V): 抽出された主張を、ステップ 1 で得られた視覚的観察と照合します。これにより、主張が視覚的証拠と一致するか否か（0 または 1）を判定し、推論を視覚的証拠に強制します。
基準評価 (Evaluation, E): タスク固有の基準に基づき、両方の回答を評価します。
スコアリング (Scoring, s): 最終的な整数スコア（1〜10）を出力します。

この構造により、推論チェーン全体が視覚的証拠に「接地」された状態を維持します。

2.2 訓練パイプラインと報酬設計

訓練は 2 段階で行われます。

コールドスタート SFT: 蒸馏された推論トレースを用いた教師あり微調整で、フォーマット遵守と基本的な判断能力を確立します。
GRPO (Group Relative Policy Optimization): 以下の 3 つのコンポーネントからなる複合報酬を用いて最適化を行います。
- フォーマット報酬 ( $R_{format}$ ): XML タグの構文正しさを評価。
- 正解報酬 ( $R_{correct}$ ): 最終的な選好判断が正解ラベルと一致するか。
- 反事実的一貫性報酬 ( $R_{cons}$ ): 位置バイアスを排除するための鍵となる報酬。 入力画像と回答の順序（A と B）を交換した際、モデルが「内容に基づいて判断を反転させる」ことを要求します。順序が変わっても内容が変わらなければ判断は変わらないはずですが、順序だけで判断するバイアスがあれば、順序を交換した際に正解が得られなくなります。このチェックを通じて、モデルは位置ではなく視覚的証拠に基づいて判断することを学習します。

3. 主要な貢献

構造化された接地検証チェーンの導入: 推論プロセスを「観察→主張→検証→評価→スコア」と分解することで、視覚的注意の減衰を克服し、モデルが画像に基づいた推論を行うことを強制します。
反事実的一貫性報酬による位置バイアスの排除: 入力順序をスワップした際の一貫性を報酬として与えることで、モデルが回答の位置に依存せず、視覚的証拠に基づいて判断することを学習させます。
スケーリングに依存しない高性能化: 大規模モデル（数十億〜数百億パラメータ）に匹敵、あるいは凌駕する性能を、30 億アクティブパラメータのモデルで達成しました。

4. 実験結果

MMRB2 ベンチマーク（4 つのサブタスク：Text-to-Image, Image Editing, Interleaved Generation, Multimodal Reasoning）における評価結果は以下の通りです。

トレーニングなしでの効果: 未学習のベースモデルに対して、MJ1 の構造化プロンプト（接地検証チェーン）のみを適用したところ、Image Editing タスクで +3.8 ポイント、Multimodal Reasoning で +1.7 ポイントの精度向上が確認されました。
最終性能: 訓練後の MJ1 は、MMRB2 全体で 77.0% の精度を達成しました。
- これは、Google DeepMind の Gemini-3-Pro (76.3%) や GPT-5 (72.2%) といった、パラメータ数が桁違いに大きいモデルを上回る結果です。
- 30 億アクティブパラメータという軽量モデルでありながら、API ベースの最先端モデルや大規模オープンソースモデル（Qwen3-VL-235B など）を凌駕しています。
アブレーション研究: 画像をシャッフルした条件や空白画像の条件での実験により、一貫性報酬（ $R_{cons}$ ）が単なるテキストの整合性ではなく、視覚的推論の整合性を測定していることが実証されました。

5. 意義と結論

本論文は、マルチモーダル判別タスクにおけるボトルネックが「モデルの規模」ではなく、「視覚的証拠を処理するメカニズム」にあることを示しました。

手法の革新性: 視覚的注意の減衰という物理的な制約に対し、推論の順序を再設計（接地検証チェーン）し、強化学習の一貫性報酬（反事実的スワップ）で学習を誘導することで、効率的に解決しました。
実用性: 大規模な計算リソースを要するモデルの訓練に依存せず、適切な訓練レシピ（構造と報酬設計）によって、軽量モデルでも高精度なマルチモーダル評価が可能であることを実証しました。
将来への示唆: RLHF や自動評価システムの信頼性を高めるために、モデルが「なぜ」その判断を下したかを視覚的証拠に基づいて説明可能にする（接地する）アプローチが不可欠であることを示唆しています。

MJ1 は、マルチモーダル評価の分野において、スケーリング則を超えた性能向上を可能にする新しいパラダイムを提供するものです。

MJ1: Multimodal Judgment via Grounded Verification