Markovian Generation Chains in Large Language Models

Dit artikel onderzoekt hoe teksten evolueren wanneer ze herhaaldelijk door grote taalmodellen worden verwerkt via Markoviaanse generatieketens, en laat zien dat dit iteratieve proces, afhankelijk van factoren zoals de temperatuurparameter, de zinsdiversiteit kan verhogen of verlagen.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau

Gepubliceerd 2026-03-13
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een verhaal vertelt aan een vriend, en die vriend het verhaal naderhand aan een andere vriend doorgeeft, die het weer aan een derde vertelt, en zo verder. Dit is het oude spelletje "Telefoontje" (of Chinese Whispers). Na een paar rondes is het originele verhaal vaak volledig veranderd, of juist raar vastgelopen in een herhaling.

Deze paper onderzoekt wat er gebeurt als we dit spelletje spelen met kunstmatige intelligentie (AI), specifiek met grote taalmodellen (LLMs) zoals die van ons allemaal.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Experiment: De "AI-Telefoontje"

De onderzoekers hebben een experiment opgezet dat ze "Markoviaanse Generatieketens" noemen. Dat klinkt ingewikkeld, maar het is eigenlijk heel simpel:

  • Je geeft een zin aan een AI.
  • De AI herschrijft die zin.
  • Je neemt die nieuwe zin en geeft die weer aan dezelfde AI.
  • De AI herschrijft die weer.
  • En zo gaat het door, 50 keer achter elkaar.

Het belangrijkste: De AI heeft geen geheugen. Ze weet niet wat er 10 stappen geleden is gebeurd. Ze kijkt alleen naar de zin die ze nu krijgt. Het is alsof je een spiegel voor een spiegel houdt; je ziet alleen de directe reflectie, niet de hele kamer erachter.

2. Twee Soorten AI-Persoonlijkheden

De paper laat zien dat het resultaat sterk afhangt van hoe je de AI "instelt". Ze vergelijken dit met twee manieren om een schilderij te maken:

  • De "Gierige" AI (Greedy Decoding):
    Stel je voor dat deze AI altijd kiest voor het allerbeste, veiligste woord dat ze kan bedenken. Ze is conservatief en durft geen risico's.

    • Het resultaat: Na een paar rondes stopt de verandering. De AI blijft vastlopen in een klein kringetje. Ze zegt steeds weer: "Het verhaal begint met een proloog" -> "We beginnen met een proloog" -> "Het verhaal begint met een proloog".
    • De metafoor: Het is alsof je een bal op een heuvel laat rollen. De bal rolt steeds verder naar beneden tot hij in een klein putje belandt en daar blijft liggen. De diversiteit verdwijnt; alles wordt saai en identiek.
  • De "Speelse" AI (Sampling-based Decoding):
    Deze AI is ingesteld om soms ook een beetje gekke of minder waarschijnlijke woorden te kiezen. Ze is creatiever en neemt risico's.

    • Het resultaat: De zin blijft veranderen! De AI blijft nieuwe zinnen bedenken. Het is alsof je de bal op een ongelijk terrein laat rollen; hij blijft huppelen en nieuwe paden verkennen.
    • De metafoor: Het is als een rivier die door een landschap stroomt. Soms splitst hij zich, soms stroomt hij langzaam, maar hij blijft bewegen en nieuwe oevers ontdekken. De tekst wordt steeds anders, maar blijft vaak nog wel begrijpelijk.

3. Wat gebeurt er als we dit in de echte wereld doen?

De onderzoekers hebben dit getest met verschillende soorten teksten (boeken, scripts, nieuws) en verschillende AI-modellen. Ze ontdekten een paar verrassende dingen:

  • De "Vertaal-Telefoontje": Als je een zin van Engels naar Frans en weer terug naar Engels laat vertalen, gebeurt er iets interessants. Bij de "Gierige" AI loop je snel vast in een kringetje. Bij de "Speelse" AI zie je dat de zin langzaam verandert, alsof het een levend wezen is dat evolueert.
  • De "Ouderwetse Vertaler" vs. De "Moderne AI": Als je dit doet met Google Translate (die heel strikt werkt), blijft de tekst bijna hetzelfde. Maar met een moderne AI (zoals GPT-4 of Llama) zie je veel meer variatie. De AI is niet alleen een vertaler, maar een herverteller.
  • De "Vergiftiging" van informatie: Als mensen of andere AI's deze veranderde teksten blijven gebruiken als basis voor hun eigen werk, kan de informatie langzaam "vervagen" of "verdraaien". Het is alsof je een kopie van een kopie maakt; na een tijdje is het origineel niet meer te herkennen.

4. Waarom is dit belangrijk?

Vroeger dachten we dat AI's alleen maar fouten maakten als ze werden getraind op slechte data (het "Model Collapse"). Maar deze paper laat zien dat er een ander probleem is: zelfs als de AI perfect is, kan het herhaaldelijk gebruiken van haar eigen output de wereld veranderen.

  • Als we AI's laten praten met elkaar (bijvoorbeeld in een chatbot-netwerk), kunnen ze in een "echo-kamer" terechtkomen waar ze steeds dezelfde, saaiere zinnen herhalen.
  • Of juist het tegenovergestelde: ze kunnen een chaos van nieuwe, soms vreemde zinnen creëren die niemand meer begrijpt.

Conclusie in één zin

Deze paper waarschuwt ons dat als we AI's blijven laten herschrijven wat ze zelf hebben geschreven, we moeten oppassen dat we niet vastlopen in een saai kringetje of dat we de boodschap kwijtraken in een wirwar van creatieve maar onbegrijpelijke zinnen. Het is een spelletje "Telefoontje" met een robot, en de uitkomst hangt af van hoe we de robot instrueren: streng of speels.