Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。

Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Xu Tang, Yao Hu, Shaohui Lin

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Vision-R1: 画像を見て「考える」AI の誕生

~「頭を働かせる」ための新しいトレーニング法~

この論文は、**「画像を見て、数学の問題を解くような複雑な思考ができる AI(Vision-R1)」**をどうやって作ろうとしたかという物語です。

これまでの AI は、画像を見て「これは猫です」と答えるのは得意でしたが、「この図形から面積を計算して、なぜその答えになるのか、手順を説明して」と聞かれると、つまずいていました。まるで、暗記は得意だけど、応用が効かない生徒のようです。

この論文の著者たちは、**「AI に『考える癖』を身につけさせる」**ために、ある画期的なトレーニング方法を開発しました。その方法を、わかりやすい比喩を使って解説します。


1. 問題:いきなり「難問」を与えても、AI は混乱する

まず、研究者たちは「DeepSeek-R1」という、テキストだけで高度な思考ができる AI の成功にヒントを得ました。彼らは、「画像を見る AI(MLLM)にも、同じように『考える力』を強化するトレーニング(強化学習)を直接施せばいいのでは?」と考えました。

しかし、いきなり難問を解かせるトレーニングを始めたところ、AI は失敗しました。

  • 現象: AI は「答えを出すこと」に必死になり、思考プロセスが短く、雑になってしまいました。
  • 比喩: 数学が苦手な小学生に、いきなり「東大入試レベルの問題を、考えながら解いてごらん」と言っても、パニックになって適当な答えを言ってしまうようなものです。AI も同じで、複雑な思考(問いかけや振り返り)を自然に生み出すことができませんでした。

2. 解決策①:「模範解答」を大量に作る(コールドスタート)

そこで、研究者たちは「いきなり難問を解かせるのではなく、まずは**『どう考えるか』を教える**」ことにしました。

  • 工夫: 既存の AI に画像を説明させ、その説明を元に「思考の過程(CoT)」を生成させました。さらに、それを「DeepSeek-R1」という天才 AI に読み込ませて、「人間のように『あれ?待てよ…』『あ、そうか!』と自問自答しながら解く」模範解答を 20 万問も作らせました。
  • 比喩: これは、**「優秀な家庭教師(DeepSeek-R1)が、生徒(画像 AI)のために、思考の過程をすべて書き出した『完璧なノート』を 20 万冊作ってあげた」**ようなものです。
  • 効果: AI はこの「完璧なノート」をまず丸暗記(微調整)しました。これで、AI は「答えだけでなく、思考のプロセスも大切だ」という基本を学びました。これを**「コールドスタート(初期化)」**と呼んでいます。

3. 解決策②:「考えすぎ」を抑制するトレーニング(PTST)

しかし、新しい問題が生まれました。AI は「完璧なノート」を覚えたせいで、**「どんな簡単な問題でも、長々と考えすぎてしまう」**ようになったのです。

  • 現象: 正解への道筋は短いのに、AI は無駄に長い思考を繰り返して、逆に間違えたり、性能が落ちたりしました。
  • 比喩: 家庭教師のノートを丸暗記した生徒が、「1+1=2」という簡単な問題でも、「まず 1 を定義し、次に 2 を定義し…」と 10 分もかけて説明し始めて、結局答えを間違えるような状態です。

そこで、研究者たちは**「段階的思考抑制トレーニング(PTST)」**という新しいルールを導入しました。

  • ルール:
    1. 第 1 段階: 「考えすぎ禁止!」と厳しく制限します。短い思考で正解にたどり着けるように鍛えます。
    2. 第 2 段階: 正しい思考が身についたら、制限を少し緩めて、少し複雑な問題に挑戦させます。
    3. 第 3 段階(必要なら): さらに制限を緩めて、難問に挑みます。
  • 比喩: これは**「マラソンの練習」に似ています。いきなりフルマラソン(長い思考)を走らせると足がつってしまいます。まずは「短い距離を正しいフォームで走る」**ことから始め、フォームが安定したら距離を伸ばしていく。そうすることで、AI は「無駄な思考」を削ぎ落とし、「必要な思考」だけを効率よく行えるようになりました。

4. 結果:小さな AI が巨人に勝つ

このトレーニングを受けた「Vision-R1」は、驚異的な成果を上げました。

  • 7 億パラメータ(7B)の小さなモデルが、700 億パラメータ(70B)以上の巨大なモデルや、OpenAI の O1という最強の AI に匹敵する成績を叩き出しました。
  • 比喩: 「小柄な天才少年(7B)」が、適切なトレーニング(コールドスタート+段階的抑制)を受けることで、巨漢の格闘家(70B)と互角に戦えるようになったのです。

まとめ

この論文が伝えているのは、**「AI に『考える力』を身につけさせるには、ただ難しい問題を解かせるだけではダメ」**ということです。

  1. まずは「正しい考え方の本(模範解答)」を大量に与えて基礎を作る。
  2. 次に、「考えすぎ」を戒めながら、段階的に難易度を上げていく。

この「基礎固め」と「段階的な鍛え上げ」の組み合わせが、AI に人間のような「ひらめき」や「自己反省」を生み出し、複雑な画像推理問題を解決する力を与えたのです。

これからの AI は、単に「答えを言う」だけでなく、「どう考えてその答えに至ったか」を、私たちが理解できる形で示してくれるようになるかもしれません。