LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Each language version is independently generated for its own context, not a direct translation.

🌲 物語：巨大な迷路と「分岐点」

AI が文章を作るプロセスは、**「巨大で複雑な迷路を歩く」**ことに似ています。
AI は一語一語（トークン）を選ぶたびに、迷路の分岐点に立ちます。

素の AI（Base Model）：
迷路の入り口では、無数の道が広がっています。「こんにちは」の次には、「元気ですか？」「今日は天気がいいですね」「私はロボットです」など、あらゆる可能性が並んでいます。AI は迷いながら、多くの道を選べるため、多様で意外な答えが出ます。
- この状態を「分岐数（BF）が高い」と呼びます。
調整された AI（Aligned Model / Chatbot）：
人間に役立つように「調整（アライメント）」された AI は、入り口で**「正解っぽい道」だけが光り輝き、他の道は暗く消えてしまいます**。
「こんにちは」の次は、ほぼ間違いなく「元気ですか？」や「何かお手伝いしましょうか？」という、安全で礼儀正しい道しか残っていません。
- この状態を「分岐数（BF）が低い（収束している）」と呼びます。

この論文の核心は、**「調整された AI は、最初から道が狭まっているため、どんな歩き方（パラメータ設定）を変えても、結局同じ道しか歩けない」**という発見です。

🔍 3 つの重要な発見

1. 「道が狭まる」現象（Probability Concentration）

AI が文章を生成するにつれて、迷路はさらに狭まっていきます。

冒頭： 調整された AI は、最初の数語で「はい、承知いたしました（Sure,）」のような定型句を選びます。これで、AI はすでに**「最も確実な道」**にロックオンしてしまいます。
結果： 道が狭まりすぎているため、温度設定（Temperature）を変えて「もっと自由に歩かせても！」と言っても、AI は**「他に歩く道がない」**ので、同じような答えしか返せなくなります。これが、なぜ調整された AI が「デコード戦略（歩き方）」の影響を受けにくい理由です。

2. 「思考の連鎖（CoT）」は安定の魔法

「Chain-of-Thought（思考の連鎖）」という、AI に「ステップバイステップで考えさせてから答えを出す」手法は、実は**「迷路を深く掘り進める」**効果があります。

AI が長い思考プロセス（「まず、A を考え、次に B を…」）を生成している間、迷路はどんどん狭まり、「最も確実な道」だけが残ります。
その状態で「答え」を導き出すと、AI はすでに**「迷う余地がまったくない状態」**に達しているため、非常に安定した、高品質な答えが出ます。
つまり、CoT は「答えを出す直前に、AI を最も確実な道に誘導する」仕組みなのです。

3. 調整の正体：「道案内」の仕掛け

では、なぜ調整された AI は道が狭まるのでしょうか？
論文は、**「AI の能力そのものが変わったわけではない」**と指摘します。

素の AI も、実は「礼儀正しい道」や「定型句」を知っています。
調整（アライメント）は、AI の脳内にある**「すでに存在する低リスクの道」を、AI が選びやすいように「道案内（Nudging）」**しているだけです。
例えば、素の AI に「はい、承知いたしました（Sure,）」と書き添えてから始めさせると、素の AI だけでも、調整された AI と同じように道が狭まり、安定した答えを出すようになります。
つまり、調整は「新しい能力」を教えたのではなく、「AI が元々持っていた安全な道を選びやすくするスイッチ」を入れたに過ぎません。

💡 私たちへの教訓

この研究は、AI を使う上で重要な示唆を与えてくれます。

「多様性」を失う代償：
AI を「安全で役立つ」ように調整すると、「創造性」や「意外性」が失われるのは当然のことです。道が狭まっているからです。もし「もっと面白い答えが欲しい」なら、あえて調整されていない「素の AI」を使うか、訓練段階で多様性を保つ工夫が必要です。
「安定性」の仕組み：
複雑な推理や数学の問題を解くとき、AI が安定して正解を出すのは、**「思考プロセスを通じて、迷う余地を消し去っているから」**です。
パラメータ調整の限界：
「温度（Temperature）」を高くしても、AI が「多様な答え」を出さないのは、**「道自体が狭まっているから」**です。パラメータをいじっても、消えた道は復活しません。多様性を取り戻すには、AI の「歩き方」ではなく「迷路の設計（学習データや学習方法）」を変える必要があります。

🎯 まとめ

この論文は、**「AI がなぜ同じようなことを言うのか」を、「迷路の道幅（分岐数）」**という視点で説明しました。

調整された AI ＝最初から**「一本道」**に誘導されている。だから安定しているが、多様性はない。
思考の連鎖（CoT） ＝迷路を深く進ませることで、**「一本道」**に到達しやすくする。
調整の正体 ＝ AI が元々持っていた**「安全な道」を、選びやすくする「道案内」**。

AI の「安定性」と「画一性」は、単なるバグではなく、「確率の道幅が狭まる」という自然な現象だったのです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題提起 (Problem)

近年の LLM は、RLHF（人間のフィードバックからの強化学習）などのアライメント技術により、安全性や有用性が向上しています。しかし、その代償として出力の多様性が著しく低下し、同じプロンプトに対して非常に似た回答しか返さない「均質化」現象が観察されています。また、アライメント済みモデルは、温度パラメータ（Temperature）や核サンプリング（Nucleus Sampling）などのデコーディング戦略に対して、ベースモデル（アライメント前のモデル）に比べて鈍感であることが知られています。

既存の研究では、これらの現象が「確率分布が狭い範囲に集中している」ことによることは示唆されていましたが、これを生成プロセス全体を通じて定量的に測定・説明する統一的な枠組みは欠けていました。

2. 手法と提案指標 (Methodology & Proposed Metric)

著者らは、LLM の生成プロセスを「分岐する木構造」として捉え、その分岐の広がりを定量化する新しい指標**「分岐因子（Branching Factor: BF）」**を提案しました。

分岐因子 (BF) の定義:
- 生成されたシーケンスの長さ正規化された分布のペルプレキシティ（指数化エントロピーレート）として定義されます。
- 数式では $B = \exp(\bar{H})$ となり、これは「モデルが平均的に次のトークンとして選択可能な有効な候補の数」を表します。
- BF が大きいほど多様な選択肢があり、BF が小さいほどモデルは特定のパスに「コミット」していることを意味します。
効率的な推定:
- 完全な分布の計算は非現実的であるため、サンプリングされたシーケンスの負の対数尤度（NLL）が、長い系列において実現エントロピーに収束すること（定理 3.1）を利用し、NLL から BF を効率的に推定するハイブリッド推定器を構築しました。

3. 主要な発見と結果 (Key Findings & Results)

A. アライメントによる BF の劇的な低下

初期段階での集中: アライメント済みモデルは、生成の開始直後から BF が大幅に低下します。ベースモデルに比べて BF が 2〜5 倍小さくなり、開始位置では最大で 1 桁（例：12 から 1.2 へ）も減少することが確認されました。
要因分析: パレート分析の結果、モデルサイズやプロンプトの複雑さよりも、アライメントチューニング（AT）が BF 減少の主要な要因であることが示されました。

B. 生成プロセスにおける動的な集中

生成に伴う BF の減少: 生成が進むにつれて、BF は滑らかに減少する傾向があります。これはモデルが生成の過程で徐々に特定のパスに「コミット」し、将来のトークンが予測可能になっていくことを示しています。
Chain-of-Thought (CoT) の安定性: CoT プロンプティングは、推論チェーンを長くすることで、重要な答えの生成を「BF がより低い（より決定論的な）」生成の後半段階へと押しやります。これにより、CoT モデルはより安定した出力を得られ、デコーディング戦略の影響を受けにくくなります。

C. デコーディング戦略への鈍感さの理由

サンプリングの無効化: アライメント済みモデルは BF が低いため、実質的に「探索すべき有効な分岐」がほとんど存在しません。そのため、温度パラメータを高くしても、高確率のトークン以外を選択する余地が少なく、デコーディング設定の変更による性能変動が小さくなります。
再サンプリング実験: 生成途中（特に BF が低い後半）で強制的に再サンプリング（フォーク）を行うと、出力の品質が著しく低下することが確認されました。これは、モデルが一度特定のパスにロックインしているため、後から経路を逸脱させるとエラーになりやすいことを示しています。

D. アライメントのメカニズム（「Nudging」実験）

スタイルトークンの誘導: アライメントはモデルの潜在空間を根本から作り変えるのではなく、ベースモデルがすでに持っている低エントロピーの軌道（例：「Sure,」や「Let's think」などのスタイルトークン）へと生成を「誘導（Nudge）」しているという仮説を検証しました。
結果: ベースモデルに対して、アライメント済みモデルが使うような短いプレフィックス（スタイルトークン）を与えただけで、BF が大幅に減少しました。これは、アライメントが「新しい能力」を追加するのではなく、既存の低エントロピー経路へのアクセスを容易にしていることを示唆しています。

4. 貢献と意義 (Contributions & Significance)

統一的な説明枠組みの提供:
- アライメントによる多様性の低下、デコーディング戦略への鈍感さ、CoT による安定性など、一見無関係に見える現象をすべて「確率集中（Probability Concentration）」という単一のメカニズムで説明しました。
新しい診断指標（BF）の確立:
- 従来の n-gram 多様性などの表面的な指標ではなく、分布の性質そのものを捉える BF を導入しました。これは、モデルの生成挙動を理解し、制御するための強力な診断ツールとなります。
実用的な示唆:
- 多様性の回復: 単にデコーディングパラメータを調整するだけでは多様性は回復せず、むしろ品質を損なう可能性があることを示しました。多様性を維持するには、トレーニングプロセス自体（アライメントデータの多様化や新しい目的関数の設計）への介入が必要であることを提言しています。
- 並列サンプリングのタイミング: 探索（フォーク）を行うべきは、BF が高い生成の初期段階であり、後半では品質低下を招くため避けるべきであることを示しました。
社会的影響への言及:
- アライメントによる出力の均質化は、創造性の低下や社会的バイアスの強化につながるリスクがあることを指摘し、多様性と堅牢性を両立させるアライメント技術の開発の必要性を強調しました。

結論

この論文は、LLM の「アライメント」が単なる性能向上ではなく、生成空間の構造そのものを「狭める（Shrinking the Generative Horizon）」プロセスであることを、分岐因子（BF）という定量的指標を用いて明らかにしました。これは、LLM の挙動を理解し、より制御可能で多様なモデルを開発するための重要な基礎的洞察を提供するものです。