LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Dit paper introduceert de 'Branching Factor' als maatstaf om te tonen hoe alignment-tuning de output-distributie van LLMs sterk concentreert en de diversiteit vermindert, waardoor modellen voorspelbaarder worden en Chain-of-Thought-reeksen stabilere redeneringen mogelijk maken.

Chenghao Yang, Sida Li, Ari Holtzman

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kern: Waarom zijn slimme AI's soms zo saai?

Stel je voor dat een Large Language Model (LLM) – zoals de slimme chatbots die we vandaag de dag gebruiken – een enorme bibliotheek is met oneindig veel verhalen. Wanneer je een vraag stelt, begint de AI een reis door deze bibliotheek.

De Basisversie (Base Model):
Een "niet-gealigneerde" basis-AI is als een avonturier die elke deur open kan duwen. Als je vraagt: "Vertel me een verhaal," heeft deze AI duizenden mogelijke paden. Hij kan kiezen voor een horrorverhaal, een romantiek, een komedie, of iets heel raars. Hij is creatief, maar soms ook onvoorspelbaar of zelfs onveilig.

De Gealigneerde Versie (Aligned Model):
Om de AI veiliger en behulpzamer te maken, hebben onderzoekers hem "gealigneerd" (getraind met menselijke feedback). Dit is alsof we de avonturier een strakke route geven. Hij mag nog steeds verhalen vertellen, maar hij wordt gestuurd om alleen de "veilige" en "beleefde" deuren te openen.

Het Probleem:
Deze studie ontdekt dat door deze training de AI niet alleen veiliger wordt, maar ook veel minder divers. Hij wordt als het ware "stug". Als je dezelfde vraag aan een gealigneerde AI en een basis-AI stelt, zal de gealigneerde AI bijna altijd exact hetzelfde antwoord geven, terwijl de basis-AI een breed scala aan antwoorden kan bedenken.


De Nieuwe Maatstaf: De "Aftakkingsfactor" (Branching Factor)

De auteurs van dit papier hebben een nieuwe manier bedacht om dit te meten, genaamd de Branching Factor (BF).

De Metafoor: De Boom van Mogelijkheden
Stel je de generatie van een zin voor als het lopen door een gigantische boom:

  • De stam is je vraag.

  • De takken zijn de mogelijke volgende woorden.

  • De bladeren zijn de volledige zinnen.

  • Bij een basis-AI: De boom is enorm. Bij elk woord zijn er misschien 10 of 20 sterke takken waar je naartoe kunt lopen. De AI heeft veel keuzevrijheid.

  • Bij een gealigneerde AI: De boom is geknipt. Bij het eerste woord zijn er misschien maar 1 of 2 takken over. De AI is al bijna "vastgezet" op één pad.

De Branching Factor is simpelweg een getal dat aangeeft: "Hoeveel goede opties heeft de AI gemiddeld op elk moment?"

  • Een hoog getal (bijv. 12) = Veel keuze, veel creativiteit.
  • Een laag getal (bijv. 1,2) = Weinig keuze, zeer voorspelbaar.

Wat hebben ze ontdekt?

1. Alignement knipt de boom af
Zodra een AI getraind is om "aardig" te zijn (RLHF), wordt de boom van mogelijkheden drastisch kleiner. De studie laat zien dat gealigneerde modellen vaak 2 tot 5 keer minder keuzevrijheid hebben dan hun basisversies. Soms, direct aan het begin van een antwoord, is het verschil zelfs 10 keer zo groot!

  • Vergelijking: Het is alsof je van een vrije wandeling in een groot bos (basis-AI) overgaat naar het lopen op een smal, geplaveid fietspad (gealigneerde AI). Je komt er sneller en veiliger, maar je ziet minder van het landschap.

2. De AI wordt stugger naarmate hij verder komt
Interessant is dat de keuzevrijheid niet alleen aan het begin klein is, maar ook kleiner wordt naarmate de AI meer tekst schrijft.

  • Vergelijking: Stel je voor dat je een treinreis maakt. Aan het begin (de vertrekhal) heb je nog keuze uit verschillende treinen. Maar zodra de trein eenmaal in het spoor zit, kun je niet meer van richting veranderen. De AI "commiteert" zich aan een pad en wordt steeds zekerder van zijn keuze.

3. Waarom Chain-of-Thought (CoT) zo stabiel werkt
Veel moderne AI's gebruiken "Chain-of-Thought" (CoT), waarbij ze eerst een lange redenering geven voordat ze het antwoord geven.

  • De studie zegt: Dit werkt zo goed omdat CoT de AI dwingt om dieper de boom in te lopen.
  • Omdat de AI al in een "laag-keuze" zone is beland (waar de takken al heel dun zijn), is het antwoord dat hij uiteindelijk geeft extreem stabiel en consistent. Hij kan niet meer makkelijk van pad wisselen.

4. Waarom veranderen van instellingen (zoals 'temperatuur') weinig uitmaakt
Vaak proberen mensen de creativiteit van een AI te verhogen door de "temperatuur" (een instelling voor willekeur) omhoog te draaien.

  • Bij een basis-AI werkt dit goed: meer temperatuur = meer verschillende paden.
  • Bij een gealigneerde AI werkt dit niet. Omdat de boom al zo klein is geknipt, zijn er simpelweg geen andere paden om op te springen, hoe hoog je de temperatuur ook zet. De AI blijft stug op zijn ene pad lopen.

Hoe werkt dit eigenlijk? (De "Nudge" Theorie)

De auteurs geloven niet dat de AI's hun brein volledig hebben herschreven. Ze denken dat de training de AI alleen leert om te beginnen met bepaalde "stijlwoorden" (zoals "Natuurlijk!" of "Hier is het antwoord:").

  • De Metafoor: Het is alsof je een auto start. De basis-AI kan in elke versnelling schakelen. De gealigneerde AI wordt echter getraind om altijd in de eerste versnelling te beginnen. Zodra hij in die versnelling zit, is de weg naar de hogere versnellingen (diversiteit) al afgesloten.
  • Ze bewezen dit door een basis-AI te "nudge" (een duwtje geven) met zo'n stijlwoord. Zodra de AI dat woord had gezegd, werd hij plotseling net zo stug als een gealigneerde AI, zonder dat hij ooit getraind was.

Conclusie voor de Gemiddelde Mens

Dit onderzoek legt uit waarom moderne AI's soms zo "voorspelbaar" en "saai" aanvoelen, zelfs als ze heel slim zijn.

  • Het goede nieuws: Ze zijn veiliger en geven betrouwbaardere antwoorden (minder hallucinaties).
  • Het minder goede nieuws: Ze verliezen hun creativiteit en diversiteit. Ze lopen vast op een smal spoor.

Als je wilt dat een AI creatief is, moet je waarschijnlijk teruggrijpen naar de "basisversies" of speciale technieken gebruiken die de "boom van mogelijkheden" weer groter maken. Maar als je zekerheid wilt, is de gealigneerde, stugge AI de beste keuze. De kunst is om het juiste evenwicht te vinden tussen veiligheid en creativiteit.