LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom zijn slimme AI's soms zo saai?

Stel je voor dat een Large Language Model (LLM) – zoals de slimme chatbots die we vandaag de dag gebruiken – een enorme bibliotheek is met oneindig veel verhalen. Wanneer je een vraag stelt, begint de AI een reis door deze bibliotheek.

De Basisversie (Base Model):
Een "niet-gealigneerde" basis-AI is als een avonturier die elke deur open kan duwen. Als je vraagt: "Vertel me een verhaal," heeft deze AI duizenden mogelijke paden. Hij kan kiezen voor een horrorverhaal, een romantiek, een komedie, of iets heel raars. Hij is creatief, maar soms ook onvoorspelbaar of zelfs onveilig.

De Gealigneerde Versie (Aligned Model):
Om de AI veiliger en behulpzamer te maken, hebben onderzoekers hem "gealigneerd" (getraind met menselijke feedback). Dit is alsof we de avonturier een strakke route geven. Hij mag nog steeds verhalen vertellen, maar hij wordt gestuurd om alleen de "veilige" en "beleefde" deuren te openen.

Het Probleem:
Deze studie ontdekt dat door deze training de AI niet alleen veiliger wordt, maar ook veel minder divers. Hij wordt als het ware "stug". Als je dezelfde vraag aan een gealigneerde AI en een basis-AI stelt, zal de gealigneerde AI bijna altijd exact hetzelfde antwoord geven, terwijl de basis-AI een breed scala aan antwoorden kan bedenken.

De Nieuwe Maatstaf: De "Aftakkingsfactor" (Branching Factor)

De auteurs van dit papier hebben een nieuwe manier bedacht om dit te meten, genaamd de Branching Factor (BF).

De Metafoor: De Boom van Mogelijkheden
Stel je de generatie van een zin voor als het lopen door een gigantische boom:

De stam is je vraag.
De takken zijn de mogelijke volgende woorden.
De bladeren zijn de volledige zinnen.
Bij een basis-AI: De boom is enorm. Bij elk woord zijn er misschien 10 of 20 sterke takken waar je naartoe kunt lopen. De AI heeft veel keuzevrijheid.
Bij een gealigneerde AI: De boom is geknipt. Bij het eerste woord zijn er misschien maar 1 of 2 takken over. De AI is al bijna "vastgezet" op één pad.

De Branching Factor is simpelweg een getal dat aangeeft: "Hoeveel goede opties heeft de AI gemiddeld op elk moment?"

Een hoog getal (bijv. 12) = Veel keuze, veel creativiteit.
Een laag getal (bijv. 1,2) = Weinig keuze, zeer voorspelbaar.

Wat hebben ze ontdekt?

1. Alignement knipt de boom af
Zodra een AI getraind is om "aardig" te zijn (RLHF), wordt de boom van mogelijkheden drastisch kleiner. De studie laat zien dat gealigneerde modellen vaak 2 tot 5 keer minder keuzevrijheid hebben dan hun basisversies. Soms, direct aan het begin van een antwoord, is het verschil zelfs 10 keer zo groot!

Vergelijking: Het is alsof je van een vrije wandeling in een groot bos (basis-AI) overgaat naar het lopen op een smal, geplaveid fietspad (gealigneerde AI). Je komt er sneller en veiliger, maar je ziet minder van het landschap.

2. De AI wordt stugger naarmate hij verder komt
Interessant is dat de keuzevrijheid niet alleen aan het begin klein is, maar ook kleiner wordt naarmate de AI meer tekst schrijft.

Vergelijking: Stel je voor dat je een treinreis maakt. Aan het begin (de vertrekhal) heb je nog keuze uit verschillende treinen. Maar zodra de trein eenmaal in het spoor zit, kun je niet meer van richting veranderen. De AI "commiteert" zich aan een pad en wordt steeds zekerder van zijn keuze.

3. Waarom Chain-of-Thought (CoT) zo stabiel werkt
Veel moderne AI's gebruiken "Chain-of-Thought" (CoT), waarbij ze eerst een lange redenering geven voordat ze het antwoord geven.

De studie zegt: Dit werkt zo goed omdat CoT de AI dwingt om dieper de boom in te lopen.
Omdat de AI al in een "laag-keuze" zone is beland (waar de takken al heel dun zijn), is het antwoord dat hij uiteindelijk geeft extreem stabiel en consistent. Hij kan niet meer makkelijk van pad wisselen.

4. Waarom veranderen van instellingen (zoals 'temperatuur') weinig uitmaakt
Vaak proberen mensen de creativiteit van een AI te verhogen door de "temperatuur" (een instelling voor willekeur) omhoog te draaien.

Bij een basis-AI werkt dit goed: meer temperatuur = meer verschillende paden.
Bij een gealigneerde AI werkt dit niet. Omdat de boom al zo klein is geknipt, zijn er simpelweg geen andere paden om op te springen, hoe hoog je de temperatuur ook zet. De AI blijft stug op zijn ene pad lopen.

Hoe werkt dit eigenlijk? (De "Nudge" Theorie)

De auteurs geloven niet dat de AI's hun brein volledig hebben herschreven. Ze denken dat de training de AI alleen leert om te beginnen met bepaalde "stijlwoorden" (zoals "Natuurlijk!" of "Hier is het antwoord:").

De Metafoor: Het is alsof je een auto start. De basis-AI kan in elke versnelling schakelen. De gealigneerde AI wordt echter getraind om altijd in de eerste versnelling te beginnen. Zodra hij in die versnelling zit, is de weg naar de hogere versnellingen (diversiteit) al afgesloten.
Ze bewezen dit door een basis-AI te "nudge" (een duwtje geven) met zo'n stijlwoord. Zodra de AI dat woord had gezegd, werd hij plotseling net zo stug als een gealigneerde AI, zonder dat hij ooit getraind was.

Conclusie voor de Gemiddelde Mens

Dit onderzoek legt uit waarom moderne AI's soms zo "voorspelbaar" en "saai" aanvoelen, zelfs als ze heel slim zijn.

Het goede nieuws: Ze zijn veiliger en geven betrouwbaardere antwoorden (minder hallucinaties).
Het minder goede nieuws: Ze verliezen hun creativiteit en diversiteit. Ze lopen vast op een smal spoor.

Als je wilt dat een AI creatief is, moet je waarschijnlijk teruggrijpen naar de "basisversies" of speciale technieken gebruiken die de "boom van mogelijkheden" weer groter maken. Maar als je zekerheid wilt, is de gealigneerde, stugge AI de beste keuze. De kunst is om het juiste evenwicht te vinden tussen veiligheid en creativiteit.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Gefineerde (aligned) Large Language Models (LLMs) vertonen vaak een opvallende gebrekkige diversiteit in hun gegenereerde output, ondanks hun indrukwekkende capaciteiten. Hoewel alignment-tuning (zoals RLHF) de bruikbaarheid en veiligheid verbetert, leidt dit vaak tot een trade-off: de output wordt voorspelbaarder en minder divers. Dit manifesteert zich in fenomenen zoals:

Gereduceerde gevoeligheid voor verschillende decoding-strategieën (bijv. temperatuur of nucleus sampling).
Een afname van de variantie in antwoorden bij Chain-of-Thought (CoT) prompting.
Een "stuck" gevoel in generatieprocessen waarbij modellen lijken vast te komen te zitten in specifieke paden.

De kernvraag is: Wat drijft deze consistentie en hoe kunnen we deze "probabilistische concentratie" rigoureus kwantificeren en begrijpen? Bestaande metrics zoals token-level entropie of oppervlakkige diversiteitsmaten (n-grammen) zijn onvoldoende omdat ze lokaal zijn of verward worden door vocabulairegrootte en outputlengte.

Methodologie: De Branching Factor (BF)

De auteurs introduceren een nieuwe, token-invariante metric genaamd de Branching Factor (BF) om de effectieve grootte van de generatieruimte te meten.

Definitie: De BF wordt gedefinieerd als de genormaliseerde perplexiteit (de geëxponentieerde entropie per token). Het vertegenwoordigt het effectieve aantal plausibele volgende tokens dat een model gemiddeld overweegt tijdens de generatie.
- Formeel: $B = \exp(\bar{H})$ , waarbij $\bar{H}$ de lengte-gemiddelde marginale entropie is.
Estimatie: Omdat het berekenen van de exacte entropie over alle mogelijke paden onberekenbaar is, gebruiken de auteurs een hybride schatter:
- Voor korte sequenties wordt de exacte realized entropy berekend.
- Voor lange sequenties maken ze gebruik van de Negative Log-Likelihood (NLL) van gesamplede sequenties als proxy. Gebaseerd op een theorema (geïnspireerd door Mudireddy et al., 2024) tonen ze aan dat de lengte-gemiddelde NLL convergeert naar de realized entropy voor typische sequenties, wat een efficiënte schatting mogelijk maakt zonder teacher forcing.
Experimenteel Opzet:
- Modellen: Llama-2 en Llama-3 families (zowel Base als Aligned/Instruct versies), evenals OLMo-2 en Qwen.
- Taken: Reasoning (MMLU), gecontroleerde generatie (Cognac), nieuwsgeneratie (BBCLatestNews), creatieve storytelling en synthetische taken (Random Strings).
- Variabelen: Prompt-complexiteit, modelgrootte, en het effect van alignment-tuning.

Belangrijkste Resultaten

1. Alignment verlaagt de Branching Factor drastisch

Alignment-tuning (RLHF, SFT) verlaagt de BF aanzienlijk. Over het algemeen is de BF van aligned modellen 2 tot 5 keer lager dan die van base modellen.
Aan het begin van een generatie (de eerste tokens) kan het verschil oplopen tot een orde van grootte (bijv. van 12 naar 1,2).
Dit verklaart waarom aligned modellen minder gevoelig zijn voor decoding-parameters: er zijn simpelweg minder "levensvatbare takken" om uit te kiezen, ongeacht de temperatuur.

2. Dynamische Concentratie tijdens Generatie

De BF neemt af naarmate de generatie vordert. Modellen "committeren" zich aan steeds nauwere trajecten naarmate er meer tokens worden gegenereerd.
Chain-of-Thought (CoT) Stabiliteit: CoT-modellen (zoals DeepSeek-distilled modellen) genereren lange redeneringsketens. Hierdoor worden de kritieke antwoorden gegenereerd in latere stadia van de generatie waar de BF van nature al laag is. Dit resulteert in uiterst stabiele en deterministische uitkomsten.

3. Nudging Experimenten: Latente Paden

De auteurs testen de hypothese dat alignment de onderliggende manifold niet fundamenteel herschikt, maar de generatie "stuurt" (nudge) naar bestaande, lage-entropie paden (bijv. door te beginnen met tokens zoals "Sure").
Door een base model te forceren om te starten met een korte, gestileerde prefix (gegenereerd door een klein aligned model), daalt de BF van het grote base model direct. Dit bevestigt dat de lage-entropie trajecten al aanwezig waren in het pre-trained model.

4. Impact van Decoding en Forking

Decoding: Omdat aligned modellen een lage BF hebben, hebben decoding-strategieën zoals nucleus sampling weinig invloed op de outputkwaliteit of diversiteit.
Resampling Risico: Als men probeert om een generatie halverwege te "forken" (nieuw samplen vanaf een later punt in de tekst), daalt de prestatie drastisch. Dit suggereert dat aligned modellen diep vastzitten in specifieke semantische paden; afwijkingen van deze paden leiden tot kwaliteitsverlies.

Bijdragen en Significantie

Unificerend Kader: Het paper biedt een unificerend probabilistisch kader dat diverse waarnemingen over LLM-gedrag verklaart: waarom aligned modellen minder divers zijn, waarom ze ongevoelig zijn voor decoding, en waarom CoT stabiliteit biedt.
Nieuwe Diagnostic: De Branching Factor (BF) wordt gepresenteerd als een krachtige diagnostische tool die beter presteert dan traditionele diversiteitsmaten (zoals Distinct-N), omdat deze de onderliggende waarschijnlijkheidsverdeling meet in plaats van oppervlakkige steekproevariatie.
Implicaties voor Training en Toepassing:
- Training: Om diversiteit te herstellen, moeten wijzigingen waarschijnlijk in het trainingsproces zelf worden aangebracht (bijv. diverse data of nieuwe loss-functies), in plaats van alleen decoding-parameters aan te passen.
- Societale Bias: De reductie van de BF kan leiden tot "generative monoculture", waarbij creativiteit en het verkennen van nieuwe ideeën worden onderdrukt, wat potentiële sociale bias versterkt.
- Toepassing: Voor systemen die diversiteit vereisen (zoals creatief schrijven), moeten parallelle sampling-methoden vroeg in het proces worden toegepast, voordat de BF te laag wordt.

Conclusie:
Alignment-tuning verandert de fundamentele aard van het model niet, maar "nudge" het naar bestaande, lage-entropie subruimtes. Dit resulteert in een scherpe concentratie van waarschijnlijkheidsmassa, wat de generatieruimte (het "generative horizon") aanzienlijk verkleint. Het begrijpen en kwantificeren van deze concentratie via de Branching Factor is essentieel voor het ontwikkelen van toekomstige modellen die zowel veilig als divers zijn.