Re2\textbf{Re}^{2}: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

この論文は、推論経路が非生産的になった際に解決をやり直すことを学習させる「Re²(Reinforcement Learning with Re-solving)」という手法を提案し、事前教師あり学習なしに純粋な強化学習のみで LLM の推論効率と精度を大幅に向上させることを示しています。

Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)が難しい問題を解くとき、間違った道に進んでしまったら、すぐに引き返して最初からやり直す『勇気』を持たせたら、もっと賢くなるのではないか?」**というアイデアを提案した研究です。

タイトルは**「Re2(リ・ツー)」**といいます。

以下に、専門用語を排し、日常の例え話を使って分かりやすく解説します。


🧩 1. 今までの AI の悩み:「迷子になっても引き返せない」

最近の AI は、難しい数学の問題やパズルを解くとき、「思考の連鎖(Chain of Thought)」という、頭の中で考えを並べるプロセスを長々と行います。
しかし、「最初の数行で方向を間違えてしまった場合」、従来の AI は気づかずに、その間違いを修正しようとしてさらに長い文章を書き続け、結果として**「無駄に長い思考」**をして正解にたどり着けなくなることがありました。

  • 例え話:
    目的地へ向かうために地図を見ているのに、**「あ、ここは逆方向だ!」と気づいても、引き返すことを許されず、ひたすら間違った道を進み続け、最後には「あきらめて適当な答えを出した」ような状態です。
    これを論文では
    「Overthinking(考えすぎ)」「無駄な思考」**と呼んでいます。

🔄 2. Re2 の解決策:「リセットボタン」の導入

この論文の提案するRe2は、AI に**「今の道がダメそうなら、潔く捨てて最初からやり直そう」**という選択肢を与えます。

  • 仕組み:

    1. AI が問題を解き始めます。
    2. 途中、「この考え方は変だ、正解にたどり着きそうにない」と感じたら、**「やり直す(Re-solving)」**というアクションを起こします。
    3. すると、AI はその間違った思考を捨てて、**「最初から(ゼロから)」**もう一度考え始めます。
    4. 正解が出せるまで、この「試行→失敗→リセット→再挑戦」を繰り返します。
  • 例え話:
    料理を作っているとき、鍋に何かを入れすぎて味が壊れそうになったら、**「あ、まずい!この鍋は捨てて、新しい鍋で最初から作り直そう!」と判断できる人です。
    従来の AI は「壊れた鍋で無理やり味付けを調整しようとして、結局まずい料理を作ってしまう」タイプでした。Re2 は
    「潔くリセットする勇気」**を AI に教えました。

🎁 3. どうやって教えたのか?(報酬の仕組み)

AI にこの「リセットする勇気」を教えるために、**「強化学習(Reinforcement Learning)」**という方法を使いました。

  • 従来のルール:
    「正解を出せばご褒美(1 点)、間違えれば 0 点」。
    → AI は「間違えても、とにかく何か答えを出さなきゃ」と焦って、変な答えを出してしまいます。

  • Re2 の新しいルール:

    • 正解を出せば1 点
    • 間違えれば0 点
    • 「やり直す」を選んだ場合:「もし最初からやり直したら、正解できる確率」を計算して、その確率に応じたご褒美を与えます。

    これにより、AI は**「無理に答えを出すよりも、一度リセットして正解する確率を高める方が、結果的に得点が高い」**と学習します。

📈 4. 実験結果:劇的な向上

この方法を実際にテストしたところ、驚くべき結果が出ました。

  • リセット率の向上:
    普通の AI は、間違った道に進んでも「やり直す」ことが0.5%しかありませんでしたが、Re2 を使った AI は30% 以上が「やり直す」ことを学びました。
  • 正解率の向上:
    数学の難問(AIME など)や科学のクイズで、従来の AI と比べて大幅に正解率が上がりました
  • テスト時間の効果:
    計算リソース(時間や回数)を少し増やすだけで、AI の能力がさらに伸びることも確認されました。

💡 まとめ:なぜこれが重要なのか?

この研究は、**「AI が賢くなるためには、ただ『長く考える』ことではなく、『正しい方向に進んでいるか』を常にチェックし、ダメなら潔くリセットする柔軟性が必要だ」**ということを証明しました。

人間が難しい問題を解くとき、「あ、この考え方はダメだ」と気づいてノートを書き直すように、AI も同じように「思考のやり直し」を許されることで、より人間らしく、そして賢く振る舞えるようになるのです。

一言で言うと:

「間違えても引き返せる AI は、正解にたどり着く確率が格段に高くなる!」

これが、この論文が伝えたい「Re2」の核心です。