R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

この論文は、多様なタスクにおけるコードインタープリターの活用を可能にするため、段階的なカリキュラム学習と強化学習を導入し、GPT-4o を凌駕する性能と自己検証行動を実現した「R1-Code-Interpreter」を提案するものである。

Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Na Li, Chuchu Fan

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の例え:「レシピだけ」vs「包丁とフライパン」

まず、これまでの AI(大規模言語モデル)の状況を想像してみてください。
これまでの AI は、「レシピ本(テキスト)だけ」を暗記して、頭の中で料理のイメージを膨らませる天才シェフでした。

  • 得意なこと: 食材の歴史を語る、美味しい料理の感想を書く、一般的な手順を説明する。
  • 苦手なこと: 「1000 個の玉ねぎを 3 等分して、それぞれ 2.5 倍の重さにしたら合計何グラム?」といった複雑な計算や、「この手順だと失敗するから、別の方法に変えよう」という論理的な試行錯誤

頭の中でシミュレーションするだけなので、計算ミスや論理の飛躍が起きやすく、特に「ブロックを積み上げるパズル」や「複雑な数学」のような、**「実際に手を動かして試さないとわからないこと」**が苦手でした。

🛠️ この論文の解決策:「道具箱」を持たせる

この研究では、AI に**「コード・インタープリター(プログラミング実行環境)」という「魔法の道具箱」を持たせました。
AI はもう、頭の中で考えるだけでなく、
「Python という言語でプログラムを書いて、実際に実行して結果を見て、間違っていれば修正する」**という作業ができるようになったのです。

  • 新しい AI の動き:
    1. 問題を見る。
    2. 「これは計算が必要だな」と判断し、プログラムを書く。
    3. 実行して結果を見る。
    4. 「あ、答えが合っていない!原因はここだ」と気づき、プログラムを直して再実行。
    5. 正解が出たら、それを答えとして提出。

これにより、AI は**「試行錯誤(Exploration)」**を通じて、以前は解けなかった難しいパズルや論理問題を解けるようになりました。


🏫 最大の課題:「いきなり全員に難問を解かせるのは無理」

しかし、ここで大きな壁にぶつかりました。
「道具箱」を持たせた AI に、いきなり 144 種類もの異なる難問(数学、パズル、論理など)を解かせようとしたところ、**「勉強しても成績が伸びない」**という現象が起きました。

なぜか?

  • 難しすぎる問題: 「どんなに頑張っても解けない」問題ばかりだと、AI は「どうせ無理だ」と諦めてしまい、学習が進まない。
  • 簡単すぎる問題: 「誰でも解ける」問題ばかりだと、「もうできているから勉強する必要がない」となり、学習が進まない。
  • バラバラな問題: 数学とパズルと論理がごちゃ混ぜだと、AI が「どっちの勉強法を使えばいいか」混乱してしまう。

まるで、**「小学生にいきなり大学院の数学と、幼児向けの絵本、そしてプロの料理を同時に教える」**ようなもので、効果が薄かったのです。


🎓 解決策:「段階的なカリキュラム学習」と「適性診断」

そこで、この研究チームは**「段階的なトレーニング(カリキュラム学習)」**という画期的な方法を取り入れました。

1. 「伸びしろ」を測る(Potential Measurement)

まず、AI に同じ問題を 20 回解かせてみました。

  • 20 回中 20 回正解 → 「すでにできている(伸びしろなし)」
  • 20 回中 0 回正解 → 「難しすぎる(伸びしろなし)」
  • 20 回中 10 回正解「ちょうどいい!少し頑張ればできる!(ここが伸びしろのピーク)」

この「ちょうどいい難易度(伸びしろ)」を測る指標を作り、問題をランク付けしました。

2. 4 つのステージでトレーニング

トレーニングを 4 つの段階に分けました。

  • ステージ 1: 「伸びしろが最も高い(半分正解する)」問題だけを集中的に解かせる。
  • ステージ 2: 少し難易度が下がった問題も混ぜる。
  • ステージ 3: さらに範囲を広げる。
  • ステージ 4: 最後は全部の問題を解かせる。

このように**「AI が一番成長しやすい問題から順に」**教えていくことで、学習効率が劇的に向上しました。
(結果:学習の効果が 3.4% から 9.3% に跳ね上がりました!)


🚀 結果:GPT-4o よりも賢くなった?

この方法で育てられた AI(R1-CI-14B)は、驚くべき結果を出しました。

  • テストの成績: 37 種類の難問で、正解率が**44.1% から 72.4%**に向上。
  • ライバルとの比較: 世界最高峰の AI「GPT-4o(テキストのみ)」や「GPT-4o(コード機能付き)」よりも高いスコアを叩き出しました。
    • なんと、「GPT-4o のコード機能付き」よりも、この研究で作った AI の方が上手にコードを使って問題を解くという結果になりました。

✨ 驚きの発見:「自分でチェックする癖」が身についた

さらに面白いことに、トレーニングを繰り返すうちに、AI が**「自分で自分の答えをチェックする」という行動を自然に身につけました。
「答えを出したけど、本当に合ってるかな?もう一回プログラムで確認しよう」と、自らコードを書いて検証するようになったのです。これは、人間が「見直し」をするのと同じで、AI が
「自律的に成長した」**証拠と言えます。


💡 まとめ

この論文が伝えていることはシンプルです。

「AI に道具(コード)を使わせるのは素晴らしいけど、いきなり全部教えるのはダメ。『できること』と『できないこと』のちょうど中間にある問題を、段階的に教えてあげれば、AI は驚くほど賢く成長する」

これは、AI のトレーニング方法に新しい指針を与えた、非常に重要な研究です。
今後は、この「道具を使って試行錯誤する AI」が、より複雑な現実世界の課題(ロボットの制御、複雑な計画立案など)を解決する鍵になるかもしれません。