Markovian Generation Chains in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een verhaal vertelt aan een vriend, en die vriend het verhaal naderhand aan een andere vriend doorgeeft, die het weer aan een derde vertelt, en zo verder. Dit is het oude spelletje "Telefoontje" (of Chinese Whispers). Na een paar rondes is het originele verhaal vaak volledig veranderd, of juist raar vastgelopen in een herhaling.

Deze paper onderzoekt wat er gebeurt als we dit spelletje spelen met kunstmatige intelligentie (AI), specifiek met grote taalmodellen (LLMs) zoals die van ons allemaal.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Experiment: De "AI-Telefoontje"

De onderzoekers hebben een experiment opgezet dat ze "Markoviaanse Generatieketens" noemen. Dat klinkt ingewikkeld, maar het is eigenlijk heel simpel:

Je geeft een zin aan een AI.
De AI herschrijft die zin.
Je neemt die nieuwe zin en geeft die weer aan dezelfde AI.
De AI herschrijft die weer.
En zo gaat het door, 50 keer achter elkaar.

Het belangrijkste: De AI heeft geen geheugen. Ze weet niet wat er 10 stappen geleden is gebeurd. Ze kijkt alleen naar de zin die ze nu krijgt. Het is alsof je een spiegel voor een spiegel houdt; je ziet alleen de directe reflectie, niet de hele kamer erachter.

2. Twee Soorten AI-Persoonlijkheden

De paper laat zien dat het resultaat sterk afhangt van hoe je de AI "instelt". Ze vergelijken dit met twee manieren om een schilderij te maken:

De "Gierige" AI (Greedy Decoding):
Stel je voor dat deze AI altijd kiest voor het allerbeste, veiligste woord dat ze kan bedenken. Ze is conservatief en durft geen risico's.
- Het resultaat: Na een paar rondes stopt de verandering. De AI blijft vastlopen in een klein kringetje. Ze zegt steeds weer: "Het verhaal begint met een proloog" -> "We beginnen met een proloog" -> "Het verhaal begint met een proloog".
- De metafoor: Het is alsof je een bal op een heuvel laat rollen. De bal rolt steeds verder naar beneden tot hij in een klein putje belandt en daar blijft liggen. De diversiteit verdwijnt; alles wordt saai en identiek.
De "Speelse" AI (Sampling-based Decoding):
Deze AI is ingesteld om soms ook een beetje gekke of minder waarschijnlijke woorden te kiezen. Ze is creatiever en neemt risico's.
- Het resultaat: De zin blijft veranderen! De AI blijft nieuwe zinnen bedenken. Het is alsof je de bal op een ongelijk terrein laat rollen; hij blijft huppelen en nieuwe paden verkennen.
- De metafoor: Het is als een rivier die door een landschap stroomt. Soms splitst hij zich, soms stroomt hij langzaam, maar hij blijft bewegen en nieuwe oevers ontdekken. De tekst wordt steeds anders, maar blijft vaak nog wel begrijpelijk.

3. Wat gebeurt er als we dit in de echte wereld doen?

De onderzoekers hebben dit getest met verschillende soorten teksten (boeken, scripts, nieuws) en verschillende AI-modellen. Ze ontdekten een paar verrassende dingen:

De "Vertaal-Telefoontje": Als je een zin van Engels naar Frans en weer terug naar Engels laat vertalen, gebeurt er iets interessants. Bij de "Gierige" AI loop je snel vast in een kringetje. Bij de "Speelse" AI zie je dat de zin langzaam verandert, alsof het een levend wezen is dat evolueert.
De "Ouderwetse Vertaler" vs. De "Moderne AI": Als je dit doet met Google Translate (die heel strikt werkt), blijft de tekst bijna hetzelfde. Maar met een moderne AI (zoals GPT-4 of Llama) zie je veel meer variatie. De AI is niet alleen een vertaler, maar een herverteller.
De "Vergiftiging" van informatie: Als mensen of andere AI's deze veranderde teksten blijven gebruiken als basis voor hun eigen werk, kan de informatie langzaam "vervagen" of "verdraaien". Het is alsof je een kopie van een kopie maakt; na een tijdje is het origineel niet meer te herkennen.

4. Waarom is dit belangrijk?

Vroeger dachten we dat AI's alleen maar fouten maakten als ze werden getraind op slechte data (het "Model Collapse"). Maar deze paper laat zien dat er een ander probleem is: zelfs als de AI perfect is, kan het herhaaldelijk gebruiken van haar eigen output de wereld veranderen.

Als we AI's laten praten met elkaar (bijvoorbeeld in een chatbot-netwerk), kunnen ze in een "echo-kamer" terechtkomen waar ze steeds dezelfde, saaiere zinnen herhalen.
Of juist het tegenovergestelde: ze kunnen een chaos van nieuwe, soms vreemde zinnen creëren die niemand meer begrijpt.

Conclusie in één zin

Deze paper waarschuwt ons dat als we AI's blijven laten herschrijven wat ze zelf hebben geschreven, we moeten oppassen dat we niet vastlopen in een saai kringetje of dat we de boodschap kwijtraken in een wirwar van creatieve maar onbegrijpelijke zinnen. Het is een spelletje "Telefoontje" met een robot, en de uitkomst hangt af van hoe we de robot instrueren: streng of speels.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Markovian Generation Chains in Large Language Models" in het Nederlands.

Titel: Markoviaanse Generatieketens in Large Language Models

Auteurs: Mingmeng Geng et al. (ENS-PSL, CNRS-Lattice, MBZUAI, Ecole Polytechnique)

1. Het Probleem

Met de toenemende prevalentie van Large Language Models (LLM's) in downstream taken zoals vertaling en herschrijven, rijst de vraag hoe teksten evolueren wanneer ze herhaaldelijk door LLM's worden verwerkt. In veel real-world scenario's (bijvoorbeeld iteratief herschrijven, "round-trip" vertaling, of multi-agent systemen) wordt de output van een LLM als input gebruikt voor de volgende iteratie, zonder dat er sprake is van een langetermijngeheugen of context uit eerdere stappen.

De auteurs identificeren een gebrek aan standaard formalisatie en meetmethoden om deze iteratieve inferentieprocessen te karakteriseren. Bestaande onderzoek richt zich vaak op "model collapse" tijdens het trainen op synthetische data, maar dit paper onderzoekt de dynamiek tijdens de inference (gebruik) onder een vast model.

2. Methodologie

De paper introduceert een nieuw raamwerk genaamd Markoviaanse Generatieketens (Markovian Generation Chains).

Formalisatie: Het proces wordt gemodelleerd als een tijd-homogene Markov-keten.
- Toestand ( $s^{(t)}$ ): Een enkele zin (sentence-level) wordt gezien als de discrete toestand.
- Overgangskern ( $P$ ): De LLM, gekoppeld aan een specifieke prompt-template ( $\rho$ ) en een decoding-configuratie ( $d$ , zoals greedy of sampling), fungeert als een stochastische operator die de huidige zin $s^{(t)}$ mapt naar een verdeling over mogelijke volgende zinnen $s^{(t+1)}$ .
- Markov-aanneming: De volgende toestand hangt uitsluitend af van de huidige toestand en de prompt; er is geen geheugen van eerdere iteraties.
Experimenteel Opzet:
- Data: Drie corpora (BookSum, ScriptBase-alpha, News2024) met 150 zinnen per dataset als startpunt ( $s^{(0)}$ ).
- Modellen: Verschillende instructie-getuned modellen (Mistral-7B, Llama-3.1-8B, Qwen2.5-7B, GPT-4o-mini).
- Taken: Iteratief herschrijven (rephrasing) en round-trip vertaling (bijv. Engels $\to$ Frans $\to$ Engels).
- Decoding Regimes: Vergelijking tussen Greedy Decoding (deterministisch, argmax) en Sampling-based Decoding (stochastisch, met temperature $\tau=0.7$ en top-p=0.9).
Analyse-maatstaven:
- Unieke zinnen: Aantal verschillende zinnen gegenereerd binnen een horizon van $T=50$ iteraties.
- Eerste herhalingstijd ( $\tau_T$ ): Het aantal stappen voordat een exacte string-herhaling optreedt.
- Diversiteit: Gemeten via METEOR, ROUGE-1, BLEU en TF-IDF cosine similarity tussen opeenvolgende iteraties.
- Informatietheoretische analyse: Onderzoek naar entropie en Kullback-Leibler (KL) contractie onder de overgangskern.

3. Belangrijkste Bijdragen

Conceptueel Raamwerk: De eerste formalisatie van iteratieve LLM-inferentie als een Markov-keten op zinsniveau, in plaats van op token-niveau. Dit onderscheidt het proces van traditionele "model collapse" studies die focussen op trainingsdata.
Dynamische Regimes: Identificatie van twee hoofdgedragingen in iteratieve ketens:
- Vroege recurrentie: Snelle convergentie naar een vaste punt (fixed point) of een korte cyclus (vaak bij greedy decoding).
- Lange transiënte fasen: Voortdurende productie van nieuwe zinnen zonder exacte herhaling binnen de observatiehorizon (vaak bij sampling).
Invloed van Decoding: Het aantonen dat de decoding-strategie de "attractoren" van het systeem fundamenteel verandert. Greedy decoding leidt tot beperkte diversiteit, terwijl sampling de verkenning van de toestandruimte verlengt.
Sensitiviteit: Analyse van hoe prompt-templates, startzinlengte en taaktype (vertaling vs. herschrijven) de convergentie en diversiteit beïnvloeden.

4. Resultaten

Greedy Decoding:
- Trajecten convergeren zeer snel (vaak binnen enkele stappen) naar een kleine recurrente verzameling (een vaste zin of een cyclus van 2-3 zinnen).
- De diversiteit (aantal unieke zinnen) is zeer laag.
- Voorbeeld: Een zin als "We begin with a prologue" oscilleert na een paar iteraties tussen twee bijna identieke varianten.
Sampling-based Decoding:
- Leidt tot aanzienlijk langere transiënte fasen. Veel ketens vertonen geen exacte herhaling binnen 50 iteraties.
- De diversiteit is veel hoger, maar varieert sterk per model en domein.
- Hogere temperaturen vertragen de convergentie naar recurrente sets.
Invloed van Input:
- Er is een positieve correlatie tussen de lengte van de startzin en de gegenereerde diversiteit, vooral bij sampling-based decoding.
- De prompt-template heeft een invloed, maar de decoding-configuratie is de dominante factor.
Round-trip Vertaling:
- LLM's tonen onder sampling veel meer oppervlakte-variabiliteit (surface-form variability) dan traditionele Machine Translation diensten (zoals Google Translate), die bijna deterministisch gedragen bij vaste inputs.
Paragraph-level Analyse:
- Zelfs bij paragraaf-gebaseerde input, waar exacte herhaling van de volledige paragraaf zeldzaam is, treden er frequente herhalingen op op zinsniveau. Dit suggereert dat lokale "attractoren" bestaan binnen grotere tekststructuren.

5. Betekenis en Conclusie

De paper biedt cruciale inzichten voor de ontwikkeling en het gebruik van LLM's in multi-agent systemen en iteratieve workflows:

Verschil met Model Collapse: De hier waargenomen dynamiek (convergentie of divergentie tijdens inferentie) is mechanisch anders dan "model collapse" (degradatie van data-distributie tijdens training). Het is een eigenschap van de overgangskern van het model, niet van het leren.
Diversiteit vs. Betrouwbaarheid: Hoewel sampling-based decoding de diversiteit behoudt of verhoogt, betekent dit niet noodzakelijk semantische trouw. Iteratieve verwerking kan leiden tot cumulatieve drift (verandering in betekenis), zelfs bij prompts die betekenisbehoud eisen.
Toekomstige Implicaties: Voor systemen waarbij LLM's met elkaar communiceren of teksten herhaaldelijk verwerken, is het essentieel om rekening te houden met de kans op snelle convergentie naar "attractoren" (bij greedy) of onvoorspelbare drift (bij sampling). Het Markov-keten raamwerk biedt een kwantitatieve basis om deze risico's te modelleren en te mitigeren.

Samenvattend waarschuwt het paper dat het "herhaaldelijk door een LLM laten lopen" van tekst geen neutraal proces is; het is een stochastisch proces dat de tekst ofwel in een kleine cyclus doet vastlopen of juist onvoorspelbaar laat afdrijven, afhankelijk van de gekozen inferentie-instellingen.

Markovian Generation Chains in Large Language Models

1. Het Experiment: De "AI-Telefoontje"

2. Twee Soorten AI-Persoonlijkheden

3. Wat gebeurt er als we dit in de echte wereld doen?

4. Waarom is dit belangrijk?

Conclusie in één zin

Titel: Markoviaanse Generatieketens in Large Language Models

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Artificial Intelligence for Sentiment Analysis of Persian Poetry