原著者： Yuhao Li, Shengchao Liu

公開日 2026-05-12

📖 1 分で読めます☕ さくっと読める

原著者： Yuhao Li, Shengchao Liu

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

この論文を、シンプルな言葉と創造的な比喩を用いて解説します。

大きな問い：私たちはモデルを「教えた」のか、それとも「目覚めさせただけ」なのか？

あなたが、何年も独学で練習を積んできた（事前学習）、非常に才能があるが少し混乱しているミュージシャン（AI モデル）を持っていると想像してください。今、あなたはその彼に新しい曲を教えたいのです。

AI 界では、彼らを「どのように」教えるかについて大きな議論があります。

手法 A（SFT）： 完璧な演奏の録音を彼に聞かせ、「これを正確に真似て」と言う。
手法 B（RL）： 彼に演奏させ、良い音符を弾くたびに褒美を与える。悪い音符を弾いたときは与えない。

一般的な考え方はこうです：手法 A は彼がすでに知っているものを真似させるだけ（模倣）であり、手法 B は彼が自分でも気づかなかった驚くべき新しいものを発見させる（発見）のだ。

この論文の著者たちは言います。「待てよ。その区別は単純すぎる。」

彼らが主張するのは、真の問題は「どのように」教えるか（模倣対報酬）ではなく、**「実際に何を教えているか」**だということです。あなたは単に、ミュージシャンがもともと能力を持っていながらミスし続けていた曲を演奏できるようにしただけでしょうか？それとも、彼が物理的に演奏できなかった曲を演奏する能力を本当に与えたのでしょうか？

彼らはこの 2 つを以下のように呼びます：

能力の顕在化（Capability Elicitation）： 元々そこにあったが眠っていたスキルを目覚めさせること。
能力の創出（Capability Creation）： ミュージシャンが持っていなかった全く新しいスキルを与えること。

「エネルギー地形」の比喩

これを説明するために、著者たちは物理学の概念である自由エネルギーを用います。ミュージシャンの心を、起伏のある地形だと想像してください。

谷（盆地）： ミュージシャンが自然に演奏する簡単な曲たちです。深く、快適で、落ち込みやすい場所です。
丘（テール）： ミュージシャンが演奏できる曲ですが、非常に高い場所にあります。そこに到達するには、多くの努力（または多くの試行）が必要です。
壁（障壁）： 巨大で登れない壁によって隔てられた曲たちです。ミュージシャンはただ歩き回っただけでは到達できません。彼らには梯子や橋が必要です。
世界の向こう側（未対応）： ミュージシャンの宇宙にはまだ存在しない曲たちです。

この地図上でのトレーニングの仕組み

「模倣（SFT）」も「報酬（RL）」も、どちらも地形を傾けることで機能します。

谷にある曲に報酬を与えると、その谷は深くなります。ミュージシャンはその曲をより頻繁に演奏するようになります。
丘にある曲に報酬を与えると、丘にスロープが作られます。ミュージシャンはその曲に到達しやすくなります。

決定的なポイント：
もしその曲がすでに谷の中にあったり、丘の上にあったりするならば、あなたは新しい能力を創出したわけではありません。既存の能力をより信頼性の高いものにしただけです。これは顕在化です。

もしその曲が壁の向こう側にあり、あなたのトレーニング方法が何らかの形でそこに到達するための橋や梯子を築いたなら、その時に初めてあなたは新しい能力を創出したことになります。これは創出です。

学習の 4 つの領域

この論文は、この地図に基づいてポストトレーニングを 4 つの具体的なシナリオに分解しています。

1. 「安全圏」（デモンストレーション網羅的な顕在化）

シナリオ： ミュージシャンはすでに曲を完璧に知っていますが、歌詞を忘れることがあります。あなたは彼に楽譜（デモンストレーション）を見せます。
結果： 彼らは忘れなくなります。新しい曲を学んだわけではなく、古い曲を安定させただけです。
教訓： 模倣を使おうが報酬を使おうが、答えがすでに簡単に見つかる場所にあったなら、あなたは新しいものを作っているのではなく、粗い宝石を磨いているだけです。

2. 「隠れた宝石」（テールの再重み付け）

シナリオ： ミュージシャンは複雑なジャズソロを知っていますが、100 万回に 1 回しか演奏しません。それは「丘」の奥に隠れています。
結果： あなたは報酬システムを使って、「わあ、あのジャズソロは最高だ！」と言います。すると、彼はその曲を常に演奏し始めます。
教訓： パフォーマンスが跳ね上がったので魔法のように見えます。しかし、ミュージシャンは最初から演奏できたのです。彼が必要としたのは、それを見つけるための少しの刺激だけでした。これはまだ顕在化であり、創出ではありません。

3. 「橋の建設者」（障壁越えの発見）

シナリオ： ミュージシャンは、これまで一度も一緒に取ったことのない一連のステップを必要とする曲を演奏する必要があります。それは壁の向こう側にあります。
結果： 単に最後に報酬を与えるのではなく、途中のステップに対して報酬を与えたり、彼に道具（梯子など）を使って隙間を越えさせたりします。
教訓： これは能力の創出です。トレーニングは単に丘を傾けただけではなく、ミュージシャンが以前は遮られていた場所に到達できるよう、地形そのものを変えました。

4. 「不可能圏」（未対応領域）

シナリオ： あなたはミュージシャンにバイオリンを必要とする曲を演奏させようとしますが、彼が持っているのはギターだけです。
結果： どれだけ模倣させたり報酬を与えたりしても、助けにはなりません。その曲を演奏するために必要な「エネルギー」は無限大です。
教訓： ここではトレーニングだけで「能力を創出」することはできません。新しい情報、新しい楽器、あるいは全く異なるモデルが必要です。

なぜこれが重要なのか

この論文は、私たちが混乱しているのは、手法（SFT 対 RL）ではなくメカニズムを見ているからだ、と主張します。

神話： 「RL は魔法だ。なぜなら新しいスキルを創出するからだ。」
現実： RL が新しいスキルを創出するのは、モデルが「壁」を越えるのを助けるツール、探索、または相互作用と組み合わさっている場合に限られます。RL が単にモデルがすでにできることに対して報酬を与えるだけなら、それは単なる顕在化です。
神話： 「SFT は弱い。なぜなら単に模倣するだけだからだ。」
現実： もし「模倣」するデータが、検索エンジンや強力な AI などの超賢いソースから来ているなら、SFT はモデルにこれまで知らなかったことを教えることができ、実質的に創出として機能します。

結論

AI が向上したのを見たとき、私たちは単に「彼らは強化学習を使ったのか？」と尋ねるべきではありません。

私たちはこう問うべきです：「彼らは単に AI がすでにできることをより良くしただけなのか、それとも AI に以前はできなかったことをする能力を本当に与えたのか？」

この論文は、ほとんどの場合、私たちは単に元々そこにあったスキルを目覚めさせている（顕在化）に過ぎず、本当に新しい能力を創出した（創出）と主張する前に非常に慎重である必要があると示唆しています。

技術的概要：ポストトレーニングにおける能力の誘発と能力の創出の区別

1. 問題定義

大規模言語モデル（LLM）のポストトレーニングに関する支配的な議論は、教師あり微調整（SFT）と強化学習（RL）の区別を、模倣（SFT）と発見（RL）という二項対立として捉える傾向がある。本論文は、この区別が粗雑であり、ポストトレーニングがモデルの振る舞いをどのように変化させるかという根本的なメカニズムを曖昧にしていると主張する。

核心的な問題は、ポストトレーニング手順が以下のいずれを行うかを決定することである：

能力の誘発：事前学習済みベースモデルが既に生成可能であったが、信頼性が低かった振る舞いの確率を高めること。
能力の創出：モデルが実用的に到達可能な振る舞いの集合を拡大し、以前は到達不可能であった結果を可能にすること。

著者らは、手法を「SFT」または「RL」とラベル付けすること自体が、その能力メカニズムを決定するものではないと論じる。むしろ、そのメカニズムは、トレーニング信号の源（デモンストレーション対報酬）、候補振る舞いの生成、そしてプロセスがモデルの到達可能なサポートを拡大するかどうかによって依存する。

2. 手法と理論的枠組み

2.1 自由エネルギーの視点

著者らは、統計物理学（$F = E - TS$）とのアナロジーを用いて、ポストトレーニングを自由エネルギーの枠組みで定式化する。彼らはポストトレーニングの目的を、実効的な自由エネルギーの最小化として解釈する：
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
ここで：

$p_0(y|x)$ は事前学習済み参照分布である。
$q(y|x)$ はポストトレーニング後の分布である。
$E(x, y)$ は外部信号から導出された実効エネルギーである。
$\beta$ は逆温度として機能し、好ましい振る舞いの利用と多様性の維持（KL 制約）の間のトレードオフを制御する。

主要な理論的洞察：

エネルギーとしての SFT：SFT はデモンストレーション上の負の対数尤度を最小化する。これは、実効エネルギー $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ を定義することに等価である。ある振る舞いがデモンストレーション分布に含まれているが、ベースモデルでは確率がゼロ（ $p_0 \to 0$ ）の場合、エネルギーは特異となり、局所的な再重み付けの解釈が破綻する。
エネルギーとしての RL：RL は KL 制約の下で報酬を最大化する。これは $E_{RL}(x, y) = -R(x, y)$ に対応する。最適分布は参照分布のボルツマン再重み付けとなる： $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ 。
局所的再重み付け：更新が参照モデルに近いまま維持される場合（強い KL 制約）、主な効果は既存分布の局所的再重み付けであり、新しい振る舞いの創出ではない。

2.2 到達可能なサポート

誘発と創出の区別を実用的なものとするため、本論文は到達可能なサポートを導入する。これは、有限のサンプリング、最適化、発散予算の下でモデルが実用的に生成できる振る舞いの集合である。この概念は、非ゼロ確率という厳密な数学的サポートを超え、実用的な到達可能性へと移行する。

著者らは、目標振る舞いとベースモデルの到達可能なサポートとの関係に基づき、振る舞いの風景を 4 つの領域に分類する：

デモンストレーションに覆われた誘発：目標振る舞いはベースモデルの高確率な「盆地」に位置し、デモンストレーションによってカバーされている。ポストトレーニングは、この既存の振る舞いを安定化させる。
テールの再重み付け：目標振る舞いはベースモデル分布の「テール」に位置する（貪欲なデコーディングでは稀だが、ベストオブ N などの大規模サンプリング予算では到達可能）。ポストトレーニングは、これらの稀だが到達可能な振る舞いを増幅する。
障壁越えの発見：目標振る舞いは、ベースモデルの典型的な出力から「障壁」（低確率の中間ステップの列）によって隔てられている。これらに到達するには、単なる再重み付けではなく、軌道生成プロセスの変更（探索、ツールの使用、プロセス監督などを通じて）が必要である。
非サポート領域：目標振る舞いはベースモデルのサポート外（ $p_0(y|x) = 0$ ）に位置する。実効エネルギーは発散する。新しい情報、ツール、またはアーキテクチャの変更なしには、ポストトレーニングはこれらの能力を創出できない。

3. 主要な貢献

SFT と RL の議論の再構築：本論文は、アルゴリズム的ラベル（SFT/RL）から能力変化のメカニズム（誘発対創出）へと焦点を移す。高品質な（テールをカバーする）デモンストレーションがあれば SFT は新しい振る舞いを誘発し得る一方、強い KL ペナルティに制約された場合、RL は単なる再重み付けに過ぎない可能性があると論じる。
診断的枠組み：自由エネルギーの視点を適用することで、著者らは性能向上が局所的再重み付け（到達可能なサポート内）に由来するのか、それともサポートの拡大（障壁の越え）に由来するのかを診断するための数学的ツールを提供する。
4 つの領域：本論文はポストトレーニングの結果に対する分類体系を確立し、「能力の創出」が手法の二元的属性ではなく、トレーニング信号、候補生成プロセス、ベースモデルの到達可能性の間の相互作用の属性であることを明確にする。
「創出」の明確化：著者らは、真の能力創出（障壁越えの発見）には、孤立した報酬最大化ではなく、軌道生成プロセスを変化させるメカニズム（探索、相互作用、ツールの使用など）が必要であると論じる。

4. 結果と主張

本論文は新しい実証的ベンチマークを提示するものではなく、既存のポストトレーニング現象に対する診断的分析を提供する：

SFT は本質的に弱いわけではない：デモンストレーションに探索や強力なモデルによって生成された軌道が含まれている場合、SFT はベースモデルが稀にしか生成しない振る舞いを誘発し得る。SFT の限界は、教師あり目的そのものではなく、デモンストレーション分布のカバレッジにある。
RL は本質的に創造的ではない：RL が強い KL 制約の下で探索メカニズムなしに適用される場合、それは単にベースモデルのテール振る舞いを再重み付けするに過ぎない。この領域における大規模なベンチマークの向上は、新しい能力の創出ではなく、テールの再重み付けを反映している。
特異点の境界：誘発から創出への移行は、自由エネルギー定式化における特異点によって示される。必要な振る舞いに対して $p_0(y|x) \to 0$ となるとき、局所的再重み付けの視点は破綻し、その振る舞いが到達可能なサポートの外にあることを示す。

5. 意義と範囲

本論文は、能力の誘発と能力の創出を区別することが、厳密なポストトレーニング研究にとって不可欠であると主張する。

控えめな主張：著者らは明示的に、SFT と RL が同一であるとか、最適化ダイナミクスが無関係であると主張するものではない。むしろ、最適化ダイナミクスは領域（例えば、障壁越え領域では、最適化は軌道生成の変化と結合されなければならない）に対して解釈されなければならないと論じる。
範囲：この枠組みは診断的である。性能の向上だけでは、能力創出の十分な証拠とならないことを明確にする。創出を主張するには、既存の確率を単に再重み付けするのではなく、探索、相互作用、または新しい情報を通じて、モデルの到達可能な振る舞いの空間を拡大したことを実証しなければならない。
将来の方向性：本論文は、今後の研究においてこれらの領域を明示的に区別することを呼びかける。研究者は、性能向上だけでなく、その向上が盆地の安定化、テールの増幅、あるいは障壁の越えのいずれを反映しているかを報告すべきである。

要約すると、本論文はポストトレーニングにおける中心的な問いは「SFT か RL か？」ではなく、「この手法は既に到達可能なものを再重み付けするのか、それとも到達可能なものを拡大するのか？」であると提唱している。

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective