Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom LLM's zo slim lijken: Een reis door de "Gedachtenketen"

Stel je voor dat een Grote Taalmodel (LLM) een ongelooflijk getalenteerde, maar zeer specifieke kok is. Deze kok heeft zijn hele leven alleen maar geoefend op één ding: het voorspellen van het volgende ingrediënt in een recept. Als je zegt "Een ei en wat melk...", zegt hij automatisch "pannenkoek". Hij is hier meester in.

Maar dan gebeurt er iets vreemds. Als je hem vraagt: "Hoe maak ik een pannenkoek?", antwoordt hij niet alleen met het eindresultaat, maar begint hij te redeneren: "Eerst de bloem, dan de eieren, dan de melk..." Alsof hij plotseling een chef-kok is geworden die complexe taken kan oplossen.

Deze paper, geschreven door een team van onderzoekers, probeert het geheim te ontrafelen: Hoe kan een kok die alleen maar "volgende woord" heeft geleerd, ineens complexe logica en redeneren?

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het mysterie van de "Prompt" (De vraag)

Stel je voor dat je de kok vraagt: "Albert Einstein was..."
De kok twijfelt. Was hij een Duitser? Een fysicus? Of gewoon wijs? De vraag is te vaag. De kok heeft geen idee wat je precies wilt. In de paper noemen ze dit ambiguïteit (twijfel).

Het probleem: Als de vraag vaag is, maakt de kok een gok. Soms een goede, vaak een slechte.
De oplossing (In-Context Learning): Wat als je de kok eerst drie andere voorbeelden geeft?
- "Isaac Newton was een wiskundige."
- "Marie Curie was een scheikundige."
- "Albert Einstein was..."
  Nu begrijpt de kok direct: "Ah! Je wilt weten wat hun beroep was!" De twijfel verdwijnt. De paper toont wiskundig aan dat door deze voorbeelden te geven, de "twijfel" van de kok exponentieel afneemt. Hij focust zich precies op wat je bedoelt.

2. De kracht van "Chain-of-Thought" (De gedachtenketen)

Maar wat als de vraag heel moeilijk is?
Stel: "Roger heeft 5 tennisballen. Hij koopt 2 blikken van elk 3 ballen. Hoeveel heeft hij nu?"

Als je de kok direct het antwoord vraagt, maakt hij vaak een fout (hij zegt misschien 11, in plaats van 11 ballen + 5 ballen = 16, of hij telt verkeerd). Hij probeert het antwoord direct te "gokken" zonder na te denken.

Hier komt de Chain-of-Thought (CoT) om de hoek kijken. Je vraagt de kok niet direct om het antwoord, maar om zijn gedachten te schrijven:

"Eerst tel ik de ballen in de blikken: 2 blikken x 3 ballen = 6 ballen."
"Dan tel ik de oude ballen erbij: 5 + 6 = 11."
"Het antwoord is 11."

Waarom werkt dit zo goed?
De paper legt uit dat dit werkt als het oplossen van een puzzel in stapjes.

De kok heeft tijdens zijn training (pre-training) al duizenden keren geteld, vermenigvuldigd en opgeteld. Hij kent deze kleine stukjes (de "atomaire taken") perfect.
Het probleem is dat hij nooit heeft geoefend om die stukjes samen te voegen in een lange, nieuwe keten.
Door de "gedachtenketen" te vragen, geef je de kok een blauwdruk. Je dwingt hem om het grote, moeilijke probleem op te splitsen in kleine, makkelijke stukjes die hij al kent.
Het is alsof je iemand die goed kan rennen, vraagt om een marathon te lopen. Als je zegt "Ren maar", kan hij vastlopen. Maar als je zegt "Loop eerst 100 meter, draai dan links, loop nog 100 meter", kan hij het perfect doen. De CoT is die instructie om het probleem op te splitsen.

3. De Wiskundige "Bewijslast"

De onderzoekers hebben niet alleen gekeken naar wat er gebeurt, maar hebben ook de wiskundige regels achter de schermen opgeschreven.

Ze bewijzen dat de "foutmarge" (hoe vaak de kok het mis heeft) drastisch kleiner wordt als je de juiste prompts gebruikt.
Bij In-Context Learning (voorbeelden geven) wordt de foutmarge kleiner naarmate je meer voorbeelden geeft.
Bij Chain-of-Thought (stap-voor-stap redeneren) wordt de foutmarge nog veel sneller kleiner. Waarom? Omdat je niet alleen de vraag verduidelijkt, maar ook de route naar het antwoord blokkeert voor fouten. Je helpt de kok om niet in de "valkuil" van een moeilijke sprong te vallen, maar hem te laten wandelen over een stevige brug van kleine stappen.

Samenvatting in één zin

Deze paper laat zien dat grote taalmodellen niet echt "nadenken" zoals wij, maar dat ze slimme trucs gebruiken: door voorbeelden te geven, maken ze de vraag duidelijk, en door stap-voor-stap te vragen, breken ze moeilijke problemen op in simpele stukjes die ze al uit hun hoofd kennen.

Het is alsof je een supercomputer niet vraagt om direct het antwoord te raden, maar hem vraagt om zijn werkblad te tonen. En door dat werkblad te tonen, wordt het antwoord bijna altijd correct.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought" in het Nederlands.

Titel: Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Auteurs: Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun.
Publicatiedatum: Februari 2026 (arXiv:2603.10000v1)

1. Probleemstelling

Grote Taalmodellen (LLMs) tonen opmerkelijke vaardigheden in diverse taken, zoals semantische promptbegrip, In-Context Learning (ICL) en Chain-of-Thought (CoT) redenering. Ondanks hun empirisch succes blijven de theoretische mechanismen die deze verschijnselen aandrijven onvoldoende begrepen. De kernvragen die dit artikel adresseert zijn:

Semantische Decoding: Hoe kunnen LLMs promptsemantiek nauwkeurig decoderen, gezien ze uitsluitend zijn getraind op het voorspellen van het volgende token (autoregressief)?
In-Context Learning (ICL): Via welk mechanisme verbetert ICL de prestaties zonder expliciete parameterupdates?
Chain-of-Thought (CoT): Waarom openen tussentijdse redeneerstappen in CoT-prompting effectief capaciteiten voor complexe, meerstapsproblemen?

Bestaande theorieën zijn vaak beperkt tot specifieke gevallen, vertrouwen op sterke aannames (zoals dat LLMs de onderliggende taakverdeling perfect benaderen), of missen een directe vergelijking tussen verschillende promptstrategieën.

2. Methodologie en Theoretisch Kader

De auteurs ontwikkelen een rigoureus theoretisch kader gebaseerd op de Transformer-architectuur en een hiërarchisch latent variabelenmodel voor documentgeneratie.

Modelopzet: Documenten worden gegenereerd via een twee-staps proces: eerst wordt een latente taak $\theta$ getrokken uit een prior $q(\theta)$ , waarna documenten conditioneel op $\theta$ worden gegenereerd.
Pretraining: LLMs worden getraind via autoregressieve next-token voorspelling om de empirische risicofunctie te minimaliseren. De auteurs bewijzen dat dit leidt tot een nauwkeurige schatting van de overgangskansen tussen tokens, zelfs zonder dat de latente taak expliciet wordt geobserveerd.
Aannames:
- Scheidbare Tokenrepresentaties: Tokens in de vocabulaire zijn genormaliseerd en voldoende van elkaar gescheiden.
- Task Consistency: In ICL en CoT delen demonstraties en de query een gemeenschappelijke latente taak.
- Prior Parity: De priorverdeling over taken is niet extreem onbalans (geen enkele taak domineert de prior).
- K-Separatie (voor CoT): Verschillende redeneerpaden in de composiële ruimte zijn voldoende van elkaar gescheiden (gemeten in Hamming-afstand).

3. Belangrijkste Bijdragen

A. Unificerend Raamwerk voor Prompting

De auteurs stellen een unificerend theoretisch raamwerk op dat drie strategieën analyseert:

Zero-Shot Prompting: De prestaties worden beperkt door de taakambiguïteit ( $A_\Theta(x)$ ). Als de prompt onvoldoende context biedt, kan het model de latente taak niet uniek identificeren.
In-Context Learning (ICL): ICL werkt als een Bayesiaanse filter. Door demonstraties toe te voegen, wordt de posterior $q(\theta | \text{prompt})$ geconcentreerd rond de beoogde taak. De fout neemt exponentieel af met het aantal demonstraties ( $m$ ).
Chain-of-Thought (CoT): CoT activeert de capaciteit van het model voor taakdecompositie. Het breekt complexe problemen op in een reeks van eenvoudigere sub-taken die het model al tijdens de pretraining heeft beheerst.

B. Theoretische Bewijzen en Foutgrenzen

Het artikel levert wiskundige bewijzen voor de superioriteit van geavanceerde prompttechnieken:

Theorema 12 (Comprehensie): Toont aan dat autoregressieve pretraining modellen in staat stelt om de ware verdeling van de meest waarschijnlijke latente taak te benaderen, waarbij de foutgrens wordt gedomineerd door de prompt-ambiguïteit.
Theorema 17 (ICL): Bewijst dat de voorspellingsfout bij ICL exponentieel afneemt met het aantal demonstraties ( $m$ ). De foutterm bevat een factor $(e^{2n\phi} \cdot c \cdot \epsilon)^m$ , wat aangeeft dat elke demonstratie de onzekerheid over de latente taak drastisch vermindert.
Theorema 26 (CoT): Dit is de kernbijdrage. Het toont aan dat CoT een composiële verschuiving (compositional shift) overbrugt.
- In tegenstelling tot ICL, dat alleen de taakidentificatie verbetert, stelt CoT het model in staat om niet-stationaire trajecten te navigeren die niet expliciet als één blok tijdens de pretraining zijn gezien.
- De foutgrens voor CoT bevat een term van de orde $(e^{2n\phi} \cdot c_1 \cdot \epsilon)^{mK}$ , waarbij $K$ de Hamming-afstand is tussen geldige redeneerpaden.
- Dit betekent dat de fout exponentieel sneller daalt dan bij standaard ICL, omdat de "resolutie" van het probleem wordt opgedeeld in $K$ onderscheidbare stappen.

C. Memoratie en Generalisatie

De auteurs bewijzen (Theorema 10 en Appendix F) dat Transformers met voldoende breedte en diepte complexe kansverdelingen kunnen memoriseren en generaliseren, zelfs zonder de noodzaak van extreme architecturale modificaties die in eerdere theorieën vaak werden gebruikt.

4. Resultaten en Vergelijking

Zero-Shot vs. ICL: Zero-shot faalt vaak bij onduidelijke prompts vanwege hoge taakambiguïteit. ICL verlaagt deze ambiguïteit exponentieel door posterior concentratie.
ICL vs. CoT: Standaard ICL is ontoereikend voor complexe, meerstapsredenering (zoals wiskundige problemen) omdat het de "composiële ruimte" niet volledig kan navigeren. CoT lost dit op door:
1. De taak te decomponeren in atomische sub-taken.
2. De onzekerheid over het redeneerpad te verkleinen door de structuur van de tussenstappen.
3. Een veel sterkere foutreductie te bieden (orde $mK$ in plaats van $m$ ).

De theorie verklaart waarom CoT effectief is: het transformeert een probleem dat buiten het bereik van de pretraining-distributie ligt (een nieuw, complex traject) naar een reeks bekende, beheerste sub-taken.

5. Betekenis en Impact

Dit artikel biedt een fundamentele theoretische verklaring voor de "emergente" vaardigheden van LLMs:

Mechanistisch Inzicht: Het onthult dat "begrip" in LLMs voortkomt uit de nauwkeurige inferentie van latente taken via autoregressie, en dat "redeneren" (CoT) een mechanisme is om de zoekruimte te beperken tot beheerde sub-taken.
Statistische Superioriteit: Het biedt een wiskundige basis voor waarom prompt engineering (zoals CoT) werkt, en kwantificeert de voordelen ten opzichte van simpele prompting.
Toekomstige Richtingen: De theorie suggereert dat de effectiviteit van prompting sterk afhankelijk is van de structuur van de taakruimte (separatie) en de kwaliteit van de demonstraties (ambiguïteit). Dit kan leiden tot betere ontwerpen voor prompt-engineering en het trainen van modellen die beter kunnen omgaan met composiële taken.

Kortom, het artikel verlegt de focus van empirische observaties naar een rigoureuze statistische en theoretische onderbouwing van waarom en hoe LLMs complexe redenering kunnen uitvoeren via prompt engineering.