Training Large Language Models To Reason In Parallel With Global Forking Tokens

本論文は、並列推論における多様性と精度の両立を可能にする「Set Supervised Fine-Tuning (SSFT)」と「Global Forking Policy Optimization (GFPO)」を提案し、これにより数学的推論やコード生成タスクにおいて既存の手法を上回る性能を実現したことを示しています。

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に『考える力』をより深く、かつ多様にさせる新しいトレーニング方法」**について書かれています。

従来の AI は、難しい問題を解くために「長い文章(思考の過程)」を順番に生成させると、だんだん頭が混乱して正解にたどり着けなくなったり、同じような思考パターンばかり繰り返したりする問題がありました。

この論文の著者たちは、**「AI に『分岐点(フォーク)』となる特別な合図を与え、その合図ごとに『全く異なる思考のルート』を並行して走らせる」**というアイデアを提案しました。

以下に、専門用語を使わず、日常の例え話で解説します。


🧠 核心となるアイデア:「思考の分岐点(フォーク)」

1. 従来の方法:「迷路を一人で歩く」

昔の AI のトレーニングでは、正解への道筋(思考の過程)を一つだけ教えて、それを真似させることが多かったです。

  • 例え話: 一人の探検家に「この迷路を解いて」と頼むと、彼は「左に行こう、次は右」という一つのルートしか考えません。もしそのルートが死end(行き止まり)なら、彼はそこで立ち往生してしまいます。
  • 問題点: 難しい問題では、正解へのルートは一つではありません。しかし、AI は「温度(ランダム性)」を上げても、正しいルートを見つけるのが難しく、間違ったルートに迷い込みやすくなります。

2. 新しい方法(SSFT):「6 人の探検家チーム」

この論文が提案する**SSFT(セット監督微調整)は、「6 人の探検家チーム」**を雇うようなものです。

  • 合図(グローバル・フォーク・トークン): 6 人の探検家それぞれに、「think 1」「think 2」...「think 6」という特別な合図を与えます。
  • トレーニングの仕組み:
    • 正解へのルートが 4 つあるとします(例:A さんは数学的、B さんは図形的、C さんは試行錯誤的など)。
    • 従来の方法だと、AI は「think 1」で A さんのルート、「think 2」でも A さんのルート……と、全員が同じことを考え始めてしまいます(これを「モードの崩壊」と呼びます)。
    • SSFT の魔法: 論文のアルゴリズムは、「think 1」には A さんのルート、「think 2」には B さんのルート……と、自動的に最適な組み合わせを見つけ出し、それぞれに異なる思考パターンを教えます。
    • これにより、「think 1」と言われたら「数学的に考える」「think 2」と言われたら「図形的に考える」というように、合図ごとに AI の思考モードが明確に分岐するようになります。

3. 結果:「並行して考える力」

トレーニングが終わった AI は、問題が出された瞬間に、「think 1」から「think 6」までを並行して走らせることができます。

  • 例え話: 6 人の探検家が同時に迷路に入り、それぞれ異なるルートを探します。
    • A さんは「左から入る」
    • B さんは「右から入る」
    • C さんは「天井から入る」
    • ...
  • 最後に、6 人の答えを集めて「多数決」をとれば、正解にたどり着く可能性が劇的に高まります。
  • さらに、**「GFPO(フォーク・ポリシー最適化)」**という技術を使うと、AI は「この問題は『think 3』のルートが一番得意そうだ」と自分で判断して、最適な探検家(思考モード)を選べるようになります。

🌟 なぜこれがすごいのか?

  1. 「過剰思考(Overthinking)」を防ぐ:
    従来の AI は、長い思考プロセスを続けるうちに「あれもこれも考えすぎて」正解を見失うことがありました。しかし、この方法では「最初から正しい思考の方向(分岐点)を決めておく」ので、無駄な回り道をせず、効率的に正解へ近づけます。

  2. 多様性と正確さの両立:
    通常、「多様な答えを出そうとすると、正解率が下がる」というジレンマがありました。しかし、SSFT を使った AI は、「多様なルート(6 人の探検家)」を維持しつつ、それぞれのルートが「正解に強い」ように訓練されるため、両方を同時に達成できます。

  3. コード生成でも活躍:
    数学の問題だけでなく、プログラミング(コードを書く)のような「正解が一つではないオープンな問題」でも、この「多様な思考モード」が有効であることが証明されました。


🎒 まとめ:日常の比喩で言うと?

この論文は、**「AI に『6 人の異なる専門家』を脳内に住まわせる」**ようなものです。

  • 従来の AI: 1 人の天才が、疲れてくると同じ失敗を繰り返す。
  • この論文の AI: 「think 1」で数学者、「think 2」で芸術家、「think 3」でエンジニア……と、合図一つで脳内の専門家を入れ替えることができる。
  • 結果: 難しい問題が出たとき、AI は「よし、今日は数学者の『think 1』で攻めてみよう」と自分で判断し、あるいは 6 人の専門家に同時に考えさせて、最も確実な答えを導き出します。

この「思考の分岐点」を制御する技術は、AI がより賢く、柔軟に、そして人間のように多角的に問題を解決するための大きな一歩となるでしょう。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →