MJ1: Multimodal Judgment via Grounded Verification

本論文は、視覚的証拠に基づく構造化検証チェーンと反事実的一貫性報酬を導入した強化学習により、30 億パラメータの MJ1 が Gemini-3-Pro などの大規模モデルを上回る高精度なマルチモーダル判断を実現し、モデル規模の増大なしに判断の信頼性を向上させる手法を提案しています。

Bhavesh Kumar, Dylan Feng, Leonard Tang

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を見て、どちらの回答が優れているかを判断する」**という難しい課題を、とても賢く、かつ効率的に解決する方法を紹介しています。

タイトルは**「MJ1(マルチモーダル・ジャッジ 1 号)」**です。

これをわかりやすく説明するために、**「優秀な審査員」「注意力の散漫な生徒」**という例えを使って解説します。


1. 問題:なぜ今の AI 審査員は失敗するの?

まず、今の AI には大きな弱点があります。それは**「画像を見る力が、文章を読む力に負けてしまう」**ことです。

  • 例え話:
    Imagine 想像してください。ある生徒(AI)に、2 枚の「お絵かき課題の提出物(画像)」と、それに対する「解説文」を見せ、「どちらが上手か?」と聞くとします。
    • 今の AI の状態: 生徒は最初のうちは画像をよく見ています。でも、解説文を読み始めたり、長い文章を書き始めたりするにつれて、**「画像の記憶がどんどん薄れていく」**のです。
    • 結果: 最終的に「どちらが優れているか」を判断するときは、画像をほとんど覚えていません。そのため、「文章が長かったから」「文法が綺麗だったから」という表面的な理由だけで判断してしまい、実際の画像の質を見逃してしまいます。これを論文では**「視覚的注意の減衰(Attention Decay)」**と呼んでいます。

2. 解決策:MJ1 の「2 つの魔法」

研究者たちは、この弱点を克服するために、AI に**「思考の型(手順)」「特別なテスト」**の 2 つを教えました。

魔法その 1:「証拠のチェックリスト」を作る(Grounded Verification Chain)

MJ1 は、いきなり「A がいいね!」と結論を出しません。代わりに、**「観察 → 主張 → 検証 → 評価 → 採点」**という 5 つのステップを必ず踏むように設計されています。

  • 例え話:
    これは、裁判所の**「証拠調べ」**のようなものです。

    1. 観察(Observations): まず、画像をじっくり見て、「ここには赤いリンゴがある」「ここは空が青い」といった事実をメモします(これが一番重要!)。
    2. 主張(Claims): 次に、回答 A と B が「何と言っているか」を整理します。
    3. 検証(Verification): 「回答 A は『赤いリンゴ』と言っているが、メモには『赤いリンゴ』とあるか?」と事実と照らし合わせます
    4. 評価・採点: 最後に、この検証結果に基づいて点数をつけます。

    ポイント: 画像を一番最初に詳しく見てメモを取ることで、後で画像のことを忘れるのを防ぎます。これだけで、AI の正解率が上がりました。

魔法その 2:「順番を入れ替えるテスト」(Counterfactual Consistency Reward)

AI は「左側にある回答(A)」を無意識に好む癖(バイアス)を持っていることがあります。これを直すためのテストです。

  • 例え話:
    審査員に「A と B を比べて」と言います。AI が「A がいい!」と言ったとしましょう。
    次に、A と B の位置をガチャッと入れ替えて、「B と A を比べて」と言います。

    • もし AI が「位置」だけで判断していたら、「今度は B が左にあるから、B がいい!」と答えてしまいます。これは**「嘘つき」**です。
    • もし AI が「内容」を見て判断していたら、「中身は変わらないから、やっぱり A(元の左側)の方がいい」と、同じ結論を出します。

    MJ1 は、この**「入れ替えても同じ結論が出るか」をチェックするテストを繰り返して、「本当に画像を見て判断しているか」**を厳しく訓練しました。

3. 驚きの結果:小さな AI が巨大な AI を倒す

この方法で訓練した MJ1 は、驚くべき結果を出しました。

  • サイズ: 脳(パラメータ)の大きさは30 億(ただし、実際に動くのは30 億のうち30 億の 10 分の 1 程度、つまり30 億の 30 億... 正確には「30 億パラメータのうち、30 億がアクティブ」という MoE 構造ですが、要は**「非常に軽量で小さい」**です)。
  • 対戦相手: Google の巨大なモデル「Gemini-3-Pro」や OpenAI の「GPT-5」など、10 倍〜100 倍も大きいモデルたち。
  • 結果: MJ1 は、30 億パラメータという小さなサイズで、巨大なモデルたちを見事に打ち破りました(MMRB2 というテストで 77.0% の正解率)。

4. まとめ:何がすごいのか?

この論文が教えてくれることはシンプルです。

「AI を大きくすればするほど賢くなる」わけではなく、「考え方の手順(思考の型)を正しく教えること」の方が、はるかに重要だ。

  • 従来の考え方: 画像を見ながら長い文章を書くのは大変だから、もっと大きな脳(モデル)を作ろう。
  • MJ1 の考え方: 大きな脳じゃなくても、**「最初に証拠(画像)をメモする」「順番を変えても正解か確認する」という「賢い勉強法」**を身につければ、小さな脳でも天才になれる。

これは、AI 開発において「量(サイズ)」よりも「質(訓練方法)」が重要だという、とても重要な発見です。まるで、「暗記力のある巨大な生徒」よりも、「論理的に考えるコツを知っている小さな生徒」の方が、難しい問題に強いという話に似ています。