Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

この論文は、実行可能な Python コードとして解を構築する「Formula-as-Code」パラダイムを採用したエージェント型フレームワーク「Infinite Problem Generator (IPG)」を提案し、物理学的推論の検証可能な高品質データセット「ClassicalMechanicsV1」を生成することで、複雑な推論能力を持つ大規模言語モデルの学習におけるデータ不足の問題を解決する手法を示しています。

Aditya Sharan, Sriram Hebbale, Dhruv Kumar

公開日 2026-03-17
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(人工知能)に物理学の難しい問題を解く力を教えるための、新しい『無限に問題を作る工場』」**を紹介するものです。

これまでの AI は、物理の教科書にあるような複雑な計算や論理推理が苦手でした。それは、AI が勉強するための「高品質で正解が保証された問題集」が不足していたからです。

この研究チームは、その問題を解決するために**「IPG(無限問題生成器)」**というシステムを開発しました。以下に、専門用語を排して、身近な例えを使って説明します。


1. 従来の問題点:「嘘をつきやすい AI」と「足りない問題集」

  • 従来の AI の弱点:
    普通の AI は、物理の問題を作る際、まるで「記憶力はあるが計算が苦手な生徒」のように振る舞います。言葉は上手に並べますが、計算過程で「幻覚(ハルシネーション)」を起こし、**「答えは合っているように見えるが、実は計算が間違っている」**という嘘をつくことがありました。
  • データ不足:
    物理の勉強には、単に問題文と答えだけでなく、「どう考えてその答えに至ったか」という**思考の跡(ステップバイステップの解説)**が必要です。しかし、既存の問題集は「テスト用」に作られており、AI が学習するための「思考の跡」が大量にありませんでした。

2. 解決策:IPG(無限問題生成器)の仕組み

このチームは、AI に「言葉で問題を作る」のではなく、**「プログラム(コード)で問題を作る」**という発想の転換を行いました。

① 「公式をコードにする」魔法のレシピ本

通常、物理の公式(例:$v = u + at$)は、AI は「文字の羅列」として扱います。しかし、IPG はこれを**「Python というプログラミング言語で書かれた実行可能な関数」**に変換します。

  • 例え話:
    料理を作る際、AI が「美味しいカレーのレシピ」を言葉で書くのではなく、「自動調理ロボットが実際に動かせるプログラム」としてレシピを作ります。
    もしプログラムに矛盾があれば、ロボットはすぐにエラーを出して止まります。これにより、
    「計算が間違っている問題」は最初から作れません。

② 3 つの工程で「正解確定」の問題を作る

IPG は以下の 3 つのステップを繰り返して、1 つの「種(元の問題)」から 10 個もの新しい問題を作ります。

  1. 分析(料理の素材選び):
    元の問題を分析し、「どの物理法則(公式)を使うか」「どんなシチュエーション(例:おもり、車、ロープ)に変えられるか」を決めます。
  2. 生成(料理の作成):
    AI が新しい問題文を作ります。ここで重要なのは、**「使われる公式は事前に決まっている」**こと。AI は勝手に新しい公式を捏造できません。
  3. 検証(味見と試食):
    作った問題に対して、自動で Python コードを実行して答えを計算させます。
    • コードがエラーになる? → 捨てます。
    • 答えが「無限大」や「マイナスの質量」になる? → 捨てます。
    • 正しく計算できた? → OK!この問題は「正解確定」です。

このように、**「作ってから、機械的に正解を確認する」**というプロセスを徹底することで、嘘のない高品質な問題集を大量に生み出しました。

3. 発見された「複雑さの設計図」

この研究で面白い発見がありました。それは、「問題の難しさ」と「コードの長さ」が比例するという事実です。

  • 発見:
    問題に使う物理公式が 3 つなら、コードは短く、5 つならコードは長くなります。
    • 例え話:
      家を建てる際、「壁の数が多ければ、必要な設計図(コード)も必然的に長くなる」のと同じです。
    • 意味:
      これにより、「コードの長さを見るだけで、問題がどれくらい難しいか」を正確に予測できるようになりました。これを使えば、AI のレベルに合わせて、あえて「簡単な問題」や「超難問」を自動で量産する「カリキュラム(学習計画)」が作れるようになります。

4. 成果:「ClassicalMechanicsV1」という問題集

このシステムを使って、専門家が作った165 個の元の問題から、1,335 個の新しい問題を生成しました。

  • 質: すべて計算が正しく、物理的にあり得る問題です。
  • 多様性: 「滑車」の問題を「タイヤ」や「釣り糸」など、様々なシチュエーションに変えて作られています。
  • 公開: このデータセットと、問題を作るシステムのコードはすべて公開されており、世界中の研究者が AI の学習に使えるようになりました。

まとめ

この論文は、**「AI に物理を教えるには、ただ問題を増やすだけでなく、『計算機が正解を確認できる仕組み』を取り入れる必要がある」**と示しました。

まるで、**「生徒に問題を解かせる前に、先生(AI)が自分で答え合わせをして、間違っていなければ合格とする」**というシステムを、自動で何千回も繰り返す工場を作ったようなものです。これにより、AI が真の「論理的思考」を身につけるための、信頼できる土台が築かれました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →