On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

本論文は、モデルのアクセス可能なサポート内で既存の行動を再重み付けする能力の引き出しと、検索やツール利用などのメカニズムを通じてそのサポートを拡張する能力の創出を区別するための自由エネルギー枠組みを提案し、この区別がポストトレーニングにおける従来のSFT対RLの二項対立よりも重要であると論じる。

原著者: Yuhao Li, Shengchao Liu

公開日 2026-05-12
📖 1 分で読めます☕ さくっと読める

原著者: Yuhao Li, Shengchao Liu

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

この論文を、シンプルな言葉と創造的な比喩を用いて解説します。

大きな問い:私たちはモデルを「教えた」のか、それとも「目覚めさせただけ」なのか?

あなたが、何年も独学で練習を積んできた(事前学習)、非常に才能があるが少し混乱しているミュージシャン(AI モデル)を持っていると想像してください。今、あなたはその彼に新しい曲を教えたいのです。

AI 界では、彼らを「どのように」教えるかについて大きな議論があります。

  • 手法 A(SFT): 完璧な演奏の録音を彼に聞かせ、「これを正確に真似て」と言う。
  • 手法 B(RL): 彼に演奏させ、良い音符を弾くたびに褒美を与える。悪い音符を弾いたときは与えない。

一般的な考え方はこうです:手法 A は彼がすでに知っているものを真似させるだけ(模倣)であり、手法 B は彼が自分でも気づかなかった驚くべき新しいものを発見させる(発見)のだ。

この論文の著者たちは言います。「待てよ。その区別は単純すぎる。」

彼らが主張するのは、真の問題は「どのように」教えるか(模倣対報酬)ではなく、**「実際に何を教えているか」**だということです。あなたは単に、ミュージシャンがもともと能力を持っていながらミスし続けていた曲を演奏できるようにしただけでしょうか?それとも、彼が物理的に演奏できなかった曲を演奏する能力を本当に与えたのでしょうか?

彼らはこの 2 つを以下のように呼びます:

  1. 能力の顕在化(Capability Elicitation): 元々そこにあったが眠っていたスキルを目覚めさせること。
  2. 能力の創出(Capability Creation): ミュージシャンが持っていなかった全く新しいスキルを与えること。

「エネルギー地形」の比喩

これを説明するために、著者たちは物理学の概念である自由エネルギーを用います。ミュージシャンの心を、起伏のある地形だと想像してください。

  • 谷(盆地): ミュージシャンが自然に演奏する簡単な曲たちです。深く、快適で、落ち込みやすい場所です。
  • 丘(テール): ミュージシャンが演奏できる曲ですが、非常に高い場所にあります。そこに到達するには、多くの努力(または多くの試行)が必要です。
  • 壁(障壁): 巨大で登れない壁によって隔てられた曲たちです。ミュージシャンはただ歩き回っただけでは到達できません。彼らには梯子や橋が必要です。
  • 世界の向こう側(未対応): ミュージシャンの宇宙にはまだ存在しない曲たちです。

この地図上でのトレーニングの仕組み

「模倣(SFT)」も「報酬(RL)」も、どちらも地形を傾けることで機能します。

  • にある曲に報酬を与えると、その谷は深くなります。ミュージシャンはその曲をより頻繁に演奏するようになります。
  • にある曲に報酬を与えると、丘にスロープが作られます。ミュージシャンはその曲に到達しやすくなります。

決定的なポイント:
もしその曲がすでに谷の中にあったり、丘の上にあったりするならば、あなたは新しい能力を創出したわけではありません。既存の能力をより信頼性の高いものにしただけです。これは顕在化です。

もしその曲がの向こう側にあり、あなたのトレーニング方法が何らかの形でそこに到達するための橋や梯子を築いたなら、その時に初めてあなたは新しい能力を創出したことになります。これは創出です。


学習の 4 つの領域

この論文は、この地図に基づいてポストトレーニングを 4 つの具体的なシナリオに分解しています。

1. 「安全圏」(デモンストレーション網羅的な顕在化)

  • シナリオ: ミュージシャンはすでに曲を完璧に知っていますが、歌詞を忘れることがあります。あなたは彼に楽譜(デモンストレーション)を見せます。
  • 結果: 彼らは忘れなくなります。新しい曲を学んだわけではなく、古い曲を安定させただけです。
  • 教訓: 模倣を使おうが報酬を使おうが、答えがすでに簡単に見つかる場所にあったなら、あなたは新しいものを作っているのではなく、粗い宝石を磨いているだけです。

2. 「隠れた宝石」(テールの再重み付け)

  • シナリオ: ミュージシャンは複雑なジャズソロを知っていますが、100 万回に 1 回しか演奏しません。それは「丘」の奥に隠れています。
  • 結果: あなたは報酬システムを使って、「わあ、あのジャズソロは最高だ!」と言います。すると、彼はその曲を常に演奏し始めます。
  • 教訓: パフォーマンスが跳ね上がったので魔法のように見えます。しかし、ミュージシャンは最初から演奏できたのです。彼が必要としたのは、それを見つけるための少しの刺激だけでした。これはまだ顕在化であり、創出ではありません。

3. 「橋の建設者」(障壁越えの発見)

  • シナリオ: ミュージシャンは、これまで一度も一緒に取ったことのない一連のステップを必要とする曲を演奏する必要があります。それは壁の向こう側にあります。
  • 結果: 単に最後に報酬を与えるのではなく、途中のステップに対して報酬を与えたり、彼に道具(梯子など)を使って隙間を越えさせたりします。
  • 教訓: これは能力の創出です。トレーニングは単に丘を傾けただけではなく、ミュージシャンが以前は遮られていた場所に到達できるよう、地形そのものを変えました。

4. 「不可能圏」(未対応領域)

  • シナリオ: あなたはミュージシャンにバイオリンを必要とする曲を演奏させようとしますが、彼が持っているのはギターだけです。
  • 結果: どれだけ模倣させたり報酬を与えたりしても、助けにはなりません。その曲を演奏するために必要な「エネルギー」は無限大です。
  • 教訓: ここではトレーニングだけで「能力を創出」することはできません。新しい情報、新しい楽器、あるいは全く異なるモデルが必要です。

なぜこれが重要なのか

この論文は、私たちが混乱しているのは、手法(SFT 対 RL)ではなくメカニズムを見ているからだ、と主張します。

  • 神話: 「RL は魔法だ。なぜなら新しいスキルを創出するからだ。」

  • 現実: RL が新しいスキルを創出するのは、モデルが「壁」を越えるのを助けるツール、探索、または相互作用と組み合わさっている場合に限られます。RL が単にモデルがすでにできることに対して報酬を与えるだけなら、それは単なる顕在化です。

  • 神話: 「SFT は弱い。なぜなら単に模倣するだけだからだ。」

  • 現実: もし「模倣」するデータが、検索エンジンや強力な AI などの超賢いソースから来ているなら、SFT はモデルにこれまで知らなかったことを教えることができ、実質的に創出として機能します。

結論

AI が向上したのを見たとき、私たちは単に「彼らは強化学習を使ったのか?」と尋ねるべきではありません。

私たちはこう問うべきです:「彼らは単に AI がすでにできることをより良くしただけなのか、それとも AI に以前はできなかったことをする能力を本当に与えたのか?」

この論文は、ほとんどの場合、私たちは単に元々そこにあったスキルを目覚めさせている(顕在化)に過ぎず、本当に新しい能力を創出した(創出)と主張する前に非常に慎重である必要があると示唆しています。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →