The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 核心となる謎：なぜ「迷い」が減ると「正解」になるのか？

AI が問題を解くとき、内部では「次の言葉は何だろう？」と常に確率を計算しています。

エントロピー（迷い）が高い ＝「A かもしれないし、B かもしれない、C かもしれない…」と選択肢が広く、何が正解か分からない状態。
エントロピーが低い ＝「もう、A しかないな！」と自信を持って答えを絞り込んでいる状態。

これまでの研究では、「AI が正解を導き出す過程では、この『迷い（エントロピー）』が徐々に減っていく」という現象が観察されていました。
しかし、**「なぜ、AI 内部の『迷い』が減ることが、外部の『正解』と関係あるのか？」**という理由が、これまで明確に説明されていませんでした。

この論文は、その理由を**「ステップごとの情報蓄積仮説（SIA）」**という考え方を使って説明しました。

🗺️ 比喩：「宝探し」と「地図」

この現象を理解するために、**「宝探し」**を例に挙げてみましょう。

1. 訓練されていない AI（迷路を彷徨う人）

訓練されていない AI は、宝のありか（正解）が全く分からない状態で出発します。

最初のステップ：「北に行こうか、南に行こうか？」（迷いが大きい）
2 歩目：「あ、北に行ったら川があった。南も候補か？」（まだ迷いが大きい）
3 歩目：「うーん、どっちも違う気がする…」（迷いが減らず、あるいは増える）

この場合、「迷いが減ったからといって、宝に近づいているとは限りません」。単に「北に行こう」と勝手に決めただけで、実は宝は南にあるかもしれません。これを論文では**「ハルシネーション（幻覚）」や「誤った自信」**と呼びます。

2. 訓練された AI（賢い探偵）

一方、正解の道筋（人間の思考プロセス）をたくさん学んだ AI は、**「正解への地図」**を頭の中に持っています。

1 歩目：「宝は北の森にあるらしい。まずは北へ。」（少し方向性が決まる）
2 歩目：「北の森には川がある。川を渡れば…」（選択肢がさらに絞られる）
3 歩目：「川を渡った先には洞窟がある。洞窟の中に宝があるはずだ！」（迷いがほぼゼロに）

この場合、**「迷い（エントロピー）が減る」＝「正解への情報が一つずつ積み上がっている」ことを意味します。
論文の「ステップごとの情報蓄積仮説（SIA）」とは、まさにこの「正しい思考プロセスでは、一歩一歩進むごとに『正解に関する情報』が確実に蓄積され、迷いが減っていく」**というルールのことです。

🎓 なぜ AI はこのルールを覚えるのか？

AI は、人間が書いた「正解への思考プロセス（チャットや解説）」を大量に学習します。

教師あり学習（SFT）： 人間が「まず A を考え、次に B を考え、最後に C が正解だ」と書くのを真似します。
強化学習（RL）： 「正解にたどり着けたらご褒美、間違ったら罰」というゲームをさせます。

この学習プロセスを通じて、AI は**「正解にたどり着くためには、思考の過程で『迷い』を段階的に減らしていく必要がある」というパターンを無意識に学習してしまうのです。
つまり、「迷いが減る」という内部のサインは、AI が「正解への道筋」を正しくたどっている証拠**になるのです。

🔍 論文が見つけた「正解のサイン」

この仮説（SIA）が成り立っている AI では、以下のような特徴的な動きが見られます。

早期のロックイン（Early Lock-in）：
正解の道筋では、思考の序盤で既に「正解に近い方向」に迷いが減り始めます。
- 例：問題文を読み終えた段階で、すでに「これは算数の問題だ」と絞り込めている。
飽和（Saturation）：
正解に近づくと、迷いは「ゼロ」に近づき、それ以上減らなくなります（ plateau/プラトー）。
- 例：「もう答えは 42 だと確定した」という状態で、これ以上考え直しても変化しない。
失敗のパターン：
間違った AI や、正解にたどり着けない AI は、迷いが減っても「正解とは違う方向」へ向かっていたり、迷いが減ったかと思えば急に増えたり（行き詰まり）、最後も「ゼロ」にならずに曖昧なまま終わったりします。

💡 この発見の意義

この論文は、単に「AI が賢くなった」というだけでなく、**「AI の『迷い（エントロピー）』を監視すれば、それが正解かどうかをリアルタイムで予測できる」**という理論的な根拠を示しました。

実用的なメリット：
- AI が「迷い」を減らさずに堂々と間違った答えを言い始めたら（ハルシネーション）、すぐに止めることができる。
- AI が正解に近づいているか、行き詰まっているかを、答えが出る前に察知できる。

🏁 まとめ

この論文は、**「AI が正解を導き出すとき、その思考の過程で『迷い』が減っていくのは、単なる偶然ではなく、AI が正解への情報を一歩ずつ積み上げているから」**と説明しました。

まるで、**「正しい道を進む人は、足跡（情報）を残しながら迷いを減らしていくが、間違った道を行く人は迷いを減らしても目的地には着かない」**という、AI 版の「道案内の法則」を見つけたようなものです。これにより、AI の思考プロセスをより深く理解し、制御できるようになるでしょう。

Each language version is independently generated for its own context, not a direct translation.

1. 問題設定 (Problem)

近年の研究では、LLM の推論プロセスにおいて、モデル内部の予測分布に基づいて計算される「エントロピー（不確実性）」の動力学が、推論の質や正答率と強く相関することが実証的に報告されています。具体的には、推論が成功する経路ではエントロピーが系統的に減少し、失敗する経路（ハルシネーションや過剰思考）ではエントロピーが減少しない、あるいは増加する傾向が見られます。

しかし、この相関には根本的な理論的ギャップが存在していました。

内部エントロピー: モデル自身の予測分布 $p_\theta$ に基づいて定義される内部指標。
外部正解: 真の答え $A$ とクエリ $Q$ の関係 $p^*(A|Q)$ によって定義される外部指標。

これらは本来独立した概念であり、なぜモデル内部の不確実性の減少が、外部の正解への収束を正確に反映するのか、そのメカニズムは未解明でした。既存の手法はこの相関を利用するものの、なぜそうなるのかを説明する理論的枠組みを提供していませんでした。

2. 手法と理論的枠組み (Methodology)

著者らは、この相関を説明するために**「段階的有用性仮説（Stepwise Informativeness Assumption: SIA）」**を提唱し、これを情報理論的に定式化しました。

2.1 段階的有用性仮説 (SIA)

SIA は、推論のプレフィックス（中間ステップ）が、生成が進むにつれて期待値として真の答えに関する情報を蓄積するという仮定です。

定式化: 推論プレフィックス $C_{1:k}$ が真の答え $A$ に関する相互情報量 $I(A; C_{1:k} | Q)$ を段階的に増加させること。
意味: 正しい推論経路では、各ステップ（トークン）が真の答えへの不確実性を系統的に減少させるように設計されている。

2.2 理論的導出

エントロピーと正解の制約: 定理 1（Theorem 1）により、条件付きエントロピー $H(A|Q, C_{1:k})$ が低いことは、ベイズ最適予測器の誤分類確率の下限を下げることが示されました。つまり、エントロピーの減少は正解への到達可能性を理論的に制約します。
訓練による SIA の誘発:
- 人間による推論トレース: 人間の推論は、認知制約下で予測情報を最小化するように構成されるため、段階的に有用な情報（答えへの制約）を蓄積する傾向があります。
- 最大尤度推定 (MLE) と微調整: 教師あり微調整（SFT）や強化学習（RL）において、モデルは「正解 $A$ に至る確率を最大化する」ように訓練されます。この際、MLE 目的関数は、データ生成分布 $r$ とモデル分布 $p_\theta$ の KL 発散を最小化します。
- 連続性の保証: レマ 2〜7 により、データ分布における段階的有用性（SIA）が、KL 発散が小さい限りモデル分布にも「連続的に」転移することが証明されました。つまり、正解指向の訓練を受けることで、モデル内部のエントロピー減少が外部の正解への収束と整合するようになります。

2.3 実証的検証

データセット: GSM8K（算数）、ARC（科学）、SVAMP（算数）の 3 つの推論ベンチマーク。
モデル: Gemma-2, LLaMA-3.2, Qwen-2.5, DeepSeek, Olmo などのオープンウェイトモデル（Base, SFT, RL 訓練済み）。
評価指標:
- SIA 整合係数 ( $\rho_{SIA}$ ): 条件付きエントロピーと真の答えの驚き（Surprisal）の相関。
- 早期分離性: 推論の初期段階で正解経路と誤り経路をエントロピーで区別できるか（AUC）。
- 飽和 (Saturation): 正解経路ではエントロピーがゼロに収束し、誤り経路では非ゼロで停滞する現象。

3. 主要な貢献 (Key Contributions)

理論的説明の提供: エントロピー動力学と正解の相関が「単なる経験則」ではなく、モデルが推論プレフィックスを通じて真の答えに関する情報を蓄積する（SIA）という構造的な条件の下で生じることを理論的に証明しました。
SIA の定式化と証明: 最大尤度推定（MLE）および強化学習（RL）が、人間の推論トレースから段階的有用性をモデルに転移させるメカニズムを情報理論的に示しました。
訓練段階による差異の解明:
- Base モデル: 推論特有の構造が未学習のため、エントロピーと正解の相関が弱いか、負の相関を示す場合がある。
- SFT/RL モデル: 正解指向の訓練により SIA が誘発され、エントロピー減少が正解への収束を強く反映するようになる。
観測可能なシグナルの特定: 正しい推論経路には「早期の情報蓄積（Early lock-in）」、「早期の分離性」、「エントロピーの飽和」という 3 つの特徴的なシグナルが存在することを示しました。

4. 結果 (Results)

エントロピー - 正解の整合性: 表 1 に示す通り、SFT や RL で訓練されたモデル（例：Olmo-3-7B-Think, DeepSeek-R1）は、SIA 整合係数 $\rho_{SIA}$ が 0.8〜0.9 以上と非常に高く、エントロピー減少が正解確率の上昇と強く一致していました。一方、Base モデルや一部のチャットモデルでは相関が弱く、負の値を示すこともありました。
早期の分離性: 正しい推論経路では、推論の初期段階（プレフィックスが短い段階）ですでにエントロピーが低くなり、誤った経路と明確に分離していました（図 2）。
飽和現象: 正しい経路ではエントロピーがゼロに近づき飽和しますが、誤った経路（ハルシネーションなど）ではエントロピーが減少せず、あるいは非ゼロの値で停滞しました（図 3）。
アブレーション研究: プレフィックス内のトークンをシャッフルすると、エントロピーと正解の相関が崩壊しました（表 2）。これは、単なるトークン数の増加ではなく、構造化された情報蓄積が重要であることを示しています。

5. 意義と結論 (Significance)

この論文は、LLM の「推論」をブラックボックスとして扱うのではなく、エントロピー動力学という内部指標を通じて推論の進捗を理論的に解釈可能にする重要な一歩です。

信頼性の向上: エントロピーが単なる「自信度」ではなく、推論が正解に収束しているかどうかの「進捗変数」として機能する理由が明らかになりました。
デバッグと制御: エントロピーの動向（早期の分離性や飽和の有無）を監視することで、ハルシネーションの検出、早期停止、推論経路の剪定（Pruning）などの制御手法が、より理論的根拠を持って設計可能になります。
限界の理解: SIA が成立しない場合（例：自由記述の創造的タスクや、訓練が不十分な領域）では、エントロピー指標は信頼できなくなるという限界も明確にされました。

総じて、この研究は LLM の推論メカニズムに対する理解を深め、より安全で効率的な推論システムの構築に向けた指針を提供するものです。