LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Each language version is independently generated for its own context, not a direct translation.

🌳 Der Wald der Möglichkeiten: Warum KI-Modelle mit „Alignment" weniger kreativ werden

Stell dir vor, ein großes Sprachmodell (LLM) ist wie ein riesiger, verworrener Wald. Wenn die KI einen Satz beginnt, steht sie an einem Wegpunkt und muss entscheiden, welchen Pfad sie als nächstes einschlägt.

1. Der Ausgangszustand: Der wilde Urwald (Base Model)

Ein „Base Model" (ein Modell ohne spezielle Nachschulung) ist wie ein wilder Urwald.

Viele Pfade: An jedem Baum gibt es Dutzende oder Hunderte von Wegen, die weiterführen.
Hohe Unsicherheit: Die KI weiß nicht genau, wohin es geht. Sie könnte eine Geschichte schreiben, einen Witz machen oder einen technischen Bericht.
Der „Verzweigungsfaktor" (Branching Factor - BF): Das ist die Zahl, die die Forscher eingeführt haben. Stell dir den BF als die Anzahl der echten, sinnvollen Pfade vor, die die KI gerade in Betracht zieht. Bei einem Base-Modell ist dieser Wert hoch (z. B. 12). Es gibt viele Möglichkeiten.

2. Der „Alignment"-Effekt: Der Landschaftsgärtner

Jetzt kommt das „Alignment" (die Nachschulung, damit die KI hilfsbereit und sicher ist). Stell dir Alignment wie einen strengen Landschaftsgärtner vor, der den Wald umgestaltet.

Der Zaun: Der Gärtner schneidet die wilden, verworrenen Äste ab und baut Zäune um die Wege.
Die Folge: Plötzlich bleiben nur noch ein paar sehr klare, gerade Wege übrig.
Das Ergebnis: Der Verzweigungsfaktor (BF) sinkt drastisch (oft von 12 auf nur noch 1,2!).
Warum? Die KI lernt durch das Training, dass bestimmte Antworten (wie „Natürlich, hier ist die Antwort...") viel wahrscheinlicher und „besser" sind als andere. Sie wird vorhersehbarer.

Die Erkenntnis: Wenn die KI „aligned" ist, hat sie weniger echte Wahlmöglichkeiten. Deshalb reagieren diese Modelle kaum auf Änderungen bei den Einstellungsparametern (wie Temperatur). Es ist wie beim Autofahren: Wenn du nur eine einzige, breite Autobahn hast, ist es egal, wie fest du das Lenkrad drehst – du bleibst auf der Straße. Bei einem Base-Modell (dem Urwald) könntest du in jede Richtung abdriften.

3. Die Dynamik: Je weiter man geht, desto schmaler wird der Weg

Die Studie zeigt etwas Überraschendes: Selbst in einem wilden Wald werden die Pfade je weiter man läuft, desto schmaler.

Am Anfang eines Satzes gibt es viele Möglichkeiten.
Sobald die KI aber den ersten Teil des Satzes geschrieben hat, „verpflichtet" sie sich zu einer bestimmten Richtung.
Beispiel: Wenn die KI mit „Ich denke, dass..." beginnt, sind die nächsten Wörter stark eingeschränkt. Sie kann nicht plötzlich „...einen Apfel isst" sagen, wenn der Kontext ein technisches Problem ist.
Chain-of-Thought (CoT): Das ist wie ein langer, gerader Weg, den die KI vor dem eigentlichen Ziel (der Antwort) entlangläuft. Durch das lange Nachdenken (den langen Pfad) gelangt die KI in einen Bereich des Waldes, wo es keine Abzweigungen mehr gibt. Das macht die endgültige Antwort sehr stabil und sicher, aber auch weniger kreativ.

4. Der „Nudge"-Experiment: Ein kleiner Schubs genügt

Die Forscher haben herausgefunden, dass Alignment das Modell nicht komplett neu erfindet. Es ist eher wie ein Nudge (ein kleiner Schubs).

Stell dir vor, das Base-Modell ist ein Mensch, der viele verschiedene Antworten geben könnte.
Wenn man ihm aber sagt: „Sag zuerst mal 'Klar, ich helfe gerne'!", dann gerät er sofort in einen bestimmten Modus.
Dieser kleine Anfangssatz (der „Stil-Token") zwingt die KI in einen Pfad, auf dem es kaum noch Abzweigungen gibt. Die KI nutzt also Wege, die im ursprünglichen Modell schon da waren, sie werden aber durch das Training viel stärker betont.

🎯 Was bedeutet das für uns?

Warum KI-Modelle „starr" wirken: Sie sind nicht starr, weil sie dumm sind, sondern weil ihre Wahrscheinlichkeitsverteilung so stark auf wenige, „sichere" Pfade konzentriert ist.
Warum Kreativität leidet: Wenn wir KI zu sehr auf Sicherheit und Hilfreichkeit trimmen, schneiden wir den Wald so stark zurück, dass es keine wilden, kreativen Pfade mehr gibt.
Die Gefahr des „Spät-Abzweigen": Wenn man versucht, eine KI mitten im Satz umzulenken (z. B. durch ein neues Prompt), scheitert das oft. Die KI hat sich bereits so fest auf einen Pfad „eingeschworen", dass ein Abweichen zu Unsinn oder schlechten Ergebnissen führt.

Zusammenfassung in einem Satz

Alignment macht KI-Modelle stabiler und vorhersehbarer, indem es den riesigen Wald der Möglichkeiten in einen schmalen, gepflasterten Weg verwandelt – was großartig für Zuverlässigkeit ist, aber die wilde Kreativität des ursprünglichen Modells einschränkt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz ihrer beeindruckenden Fähigkeiten neigen abgestimmte (aligned) Large Language Models (LLMs) dazu, Ausgaben zu generieren, die an Vielfalt (Diversity) mangeln. Während das Alignment (z. B. durch RLHF) die Hilfsbereitschaft und Sicherheit verbessert, führt es oft zu einem Trade-off: Die Ausgaben werden deterministischer und weniger sensibel gegenüber verschiedenen Dekodierungsstrategien (wie Temperatur oder Nucleus Sampling).
Bisherige Metriken zur Messung dieser Vielfalt (z. B. Token-Level-Entropie oder n-Gram-Vielfalt) sind entweder zu lokal, abhängig von der Vokabulargröße oder verwechseln Oberflächeneigenschaften mit der zugrunde liegenden Wahrscheinlichkeitsverteilung. Es fehlt ein rigoroses Maß, um zu quantifizieren, wie sich der potenzielle Ausgabe-Raum eines Modells während der Generierung in einen schmalen Pfad von wahrscheinlichsten Trajektorien zusammenzieht.

2. Methodik: Der Branching Factor (BF)

Die Autoren führen den Branching Factor (BF) als zentrales Diagnosewerkzeug ein.

Definition: Der BF ist ein token-invariantes Maß für die effektive Anzahl plausibler nächster Schritte während der Generierung. Er wird als die exponentiierte Entropie-Rate (length-normalized perplexity) definiert:
$B \equiv \exp\left(\frac{1}{N} \tilde{H}(Y_{1:N}|x; \theta)\right)$
Dabei ist $\tilde{H}$ die Entropie der Sequenz und $N$ die Länge.
Bedeutung: Ein hoher BF bedeutet viele plausible nächste Tokens (hohe Unsicherheit/Vielfalt), ein niedriger BF bedeutet, dass das Modell auf wenige, hochwahrscheinliche Pfade „eingeschworen" ist.
Schätzung: Da die Berechnung der vollen Entropie über den gesamten Suchraum exponentiell teuer ist, nutzen die Autoren den negativen Log-Likelihood (NLL) als effizienten Proxy. Basierend auf dem Asymptotic Equipartition Property (AEP) und neueren Erkenntnissen (Mudireddy et al., 2024) zeigen sie, dass der NLL in langen Sequenzen gegen die realisierte Entropie konvergiert, was eine effiziente Schätzung des BF ermöglicht.

3. Wichtige Beiträge und Ergebnisse

A. Quantifizierung der Wahrscheinlichkeitskonzentration

Die empirische Analyse zeigt zwei fundamentale Phänomene:

Dynamische Konzentration: Der BF nimmt im Verlauf der Generierung typischerweise ab. Modelle werden vorhersehbarer, je mehr Tokens sie generieren, da sie sich auf spezifische Trajektorien „festlegen".
Effekt des Alignments: Alignment-Feinabstimmung (z. B. Chat-Modelle vs. Base-Modelle) schärft die Ausgabe-Verteilung drastisch von Beginn an.
- Der BF wird insgesamt um einen Faktor von 2–5 reduziert.
- Zu Beginn der Generierung (erste Tokens) kann die Reduktion sogar eine Größenordnung betragen (z. B. von 12 auf 1,2).
- Dies erklärt, warum abgestimmte Modelle weniger empfindlich auf Dekodierungsparameter (wie Temperatur) reagieren: Es gibt einfach weniger „gültige" Äste im Suchbaum, die abgeschnitten werden müssen.

B. Erklärung von Stabilität und Chain-of-Thought (CoT)

Die Autoren verbinden den BF mit komplexen Reasoning-Phänomenen:

Stabilität durch CoT: Modelle, die Chain-of-Thought (CoT) verwenden (z. B. DeepSeek-Distill-Modelle), generieren lange Reasoning-Ketten. Dadurch verschieben sie die eigentliche Antwortgenerierung in spätere Phasen der Generierung, in denen der BF ohnehin bereits niedrig ist. Dies führt zu stabileren und deterministischeren Ergebnissen.
Empirische Bestätigung: Experimente zeigen, dass abgestimmte Modelle bei Dekodierungs-Tests (z. B. MMLU) kaum Leistungsschwankungen aufweisen, während Base-Modelle (mit höherem BF) stark variieren. Auch die Varianz bei Majority Voting ist bei Modellen mit niedrigem BF signifikant geringer.

C. Mechanismus des Alignments: „Nudging"

Eine zentrale Hypothese der Arbeit ist, dass Alignment die zugrunde liegende Mannigfaltigkeit des Modells nicht fundamental neu formt, sondern es in bereits vorhandene, niedrig-entropische Subräume lenkt.

Experiment: Durch „Nudging" (das Vorsetzen eines kurzen, abgestimmten Stil-Tokens wie „Sure" oder „Let's think") bei einem Base-Modell wird der BF sofort drastisch gesenkt.
Fazit: Alignment trainiert Modelle gewissermaßen darauf, stilistische Trigger-Tokens zu nutzen, die den Zugang zu diesen stabilen, vorhersagbaren Trajektorien freischalten.

D. Risiko der Späten Abzweigung (Forking)

Da der BF im Laufe der Generierung sinkt, wird es riskant, die Generierungspfade spät zu ändern.

Resampling-Experimente: Wenn man versucht, die Generierung an einer späten Position (niedriger BF) neu zu starten (Resampling), führt dies zu einem starken Leistungsabfall und inkohärenten Ausgaben. Das Modell ist semantisch „verriegelt".
Implikation: Für Anwendungen, die Vielfalt erfordern (z. B. kreative Aufgaben), sollte Parallel-Sampling früh erfolgen, solange der BF noch hoch ist.

4. Signifikanz und Implikationen

Einheitliches Framework: Die Arbeit bietet eine einheitliche probabilistische Erklärung für scheinbar disparate Phänomene: reduzierte Vielfalt bei Alignment, Unempfindlichkeit gegenüber Dekodierungsparametern und die Stabilität von CoT-Modellen.
Diagnostik: Der BF dient als mächtiges Werkzeug, um das Verhalten von LLMs zu verstehen und zu steuern, ohne auf oberflächliche Diversitätsmetriken angewiesen zu sein.
Gesellschaftliche Auswirkungen: Die starke Reduktion des BF durch Alignment führt zu homogenisierten Ausgaben. Dies kann Kreativität einschränken und soziale Vorurteile verstärken, da der „Suchraum" für alternative Ideen oder Nuancen drastisch verkleinert wird.
Zukünftige Richtungen: Um Vielfalt zu erhalten, müssen Eingriffe eher im Trainingsprozess (z. B. diversere Alignments-Daten oder neue Verlustfunktionen) als nur in der Dekodierung erfolgen.

Zusammenfassend zeigt das Paper, dass Alignment nicht nur die „Art" der Antworten ändert, sondern die wahrscheinlichkeitstheoretische Struktur der Generierung fundamental verengt, was sowohl die Stabilität als auch die mangelnde Vielfalt abgestimmter LLMs erklärt.