Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Each language version is independently generated for its own context, not a direct translation.

Verloren in Verhalen: Waarom AI-verhalen soms hun eigen plot vergeten

Stel je voor dat je een meesterverteller bent die een episch verhaal moet vertellen. Je begint met een held, een magische zwaard en een dreigende draak. Maar halverwege het verhaal vergeet je dat de held al een zwaard had, en plotseling zegt de draak dat hij in een andere tijd leeft dan de held. Of misschien verandert de held's haar kleur van blond naar zwart zonder dat iemand het heeft gekleurd.

Dit is precies wat er gebeurt met de slimste computers (Large Language Models of LLMs) als ze hele lange verhalen schrijven. Ze zijn fantastisch in het schrijven van zinnen, maar ze worden vaak "verloren in het verhaal" en vergeten hun eigen regels.

Hier is wat de onderzoekers van dit paper hebben ontdekt, vertaald naar simpele taal:

1. Het Probleem: De Vergetelheid van de AI

Vroeger konden computers alleen korte teksten schrijven. Nu kunnen ze verhalen schrijven van 10.000 woorden (ongeveer 30 tot 40 pagina's). Maar hoe langer het verhaal wordt, hoe meer de computer zijn eigen feiten verward.

Voorbeeld: In hoofdstuk 1 zegt de hoofdpersoon: "Ik ben 10 jaar oud." In hoofdstuk 20 zegt hij: "Ik ben 10 jaar oud," terwijl het verhaal al 50 jaar verder is.
De huidige situatie: De meeste tests kijken alleen of het verhaal leest als een goed verhaal (is het vloeiend?). Maar niemand keek echt goed of het verhaal logisch consistent was.

2. De Oplossing: De "Consistency Check" (ConStory-Bench)

De onderzoekers hebben een nieuwe test ontwikkeld, genaamd ConStory-Bench. Denk hierbij aan een super-sterke lezer die een verhaal van 10.000 woorden leest en een rode pen vasthoudt.

De Taak: Ze hebben 2.000 verschillende prompts (opdrachten) gemaakt, zoals "Schrijf een verhaal over een moeder en kind in 1982 die vastzitten in de sneeuw."
De Regels: Ze hebben een lijst met fouten gemaakt, zoals:
- Tijdsfouten: De zon gaat op, maar het is nacht.
- Karakterfouten: De held kan vliegen, maar in het volgende hoofdstuk kan hij niet eens klimmen.
- Wereld-fouten: De stad heet "New York", maar er zijn geen auto's en iedereen rijdt op paarden.

3. De Detectiemachine: CONSTORY-CHECKER

Om dit allemaal te controleren, hebben ze een automatische machine gebouwd die CONSTORY-CHECKER heet.

Hoe werkt het? Stel je voor dat deze machine een detective is. Hij leest het verhaal, zoekt naar tegenstrijdigheden en zegt dan: "Hé, hier staat dat de man een blauw shirt draagt, maar 500 woorden eerder stond dat hij een rode hoed had. Dat kan niet allebei waar zijn!"
Het bewijs: De machine is niet zomaar een gokker. Hij toont precies waar in de tekst de fout zit en legt uit waarom het een fout is.

4. Wat hebben ze ontdekt? (De Grote Geheimen)

Toen ze 20 verschillende AI-modellen (zoals die van Google, OpenAI, en Chinese bedrijven) op deze test lieten werken, kwamen ze tot interessante conclusies:

De "Midden-Moeheid": Fouten gebeuren niet willekeurig. Ze komen het vaakst voor in het midden van het verhaal. Het is alsof de verteller halverwege de weg een beetje moe wordt en zijn eigen verhaal vergeet.
De "Verwarring-Indicator": De onderzoekers keken naar hoe "onzeker" de AI was terwijl hij schreef. Ze ontdekten dat de AI vaak fouten maakt op momenten dat hij het minst zeker is van zijn woorden (een wetenschappelijk concept genaamd entropie).
- Analogie: Het is alsof je een quiz doet. Als je zeker weet dat het antwoord "A" is, schrijf je het op. Maar als je twijfelt tussen "A" en "B", maak je sneller een fout. De AI twijfelt vaak op de plekken waar de fouten later ontstaan.
De "Keten-reactie": Als de AI een fout maakt in de feiten (bijvoorbeeld een verkeerde datum), maakt hij vaak ook fouten in de karakters of de wereldregels. Het is alsof als je één steen uit een muur haalt, de hele muur begint te wankelen.
Wie is de beste? De nieuwste modellen (zoals GPT-5 Reasoning) doen het het beste, maar zelfs zij maken fouten. Open-source modellen (gratis modellen) doen het verrassend goed, maar nog niet perfect.

5. Waarom is dit belangrijk?

Stel je voor dat je een AI vraagt om een medisch verslag te schrijven of een juridisch document. Als de AI vergeet dat de patiënt allergisch is voor penicilline in de eerste alinea, en in de laatste alinea penicilline voorschrijft, is dat gevaarlijk.

Dit onderzoek laat zien dat we niet alleen moeten kijken of een AI "slim" klinkt, maar ook of het betrouwbaar is in lange teksten. Ze hebben een spiegel opgehangen aan de AI-ontwikkelaars: "Jullie modellen zijn goed, maar ze vergeten hun eigen verhaal. We moeten ze leren om beter te onthouden."

Kortom: AI is een fantastische verteller, maar het is nog een beetje een dromer die halverwege de droom zijn eigen regels vergeet. Met deze nieuwe test kunnen we die dromers helpen om hun verhalen tot een logisch einde te brengen.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. Het Probleem: De Vergetelheid van de AI

2. De Oplossing: De "Consistency Check" (ConStory-Bench)

3. De Detectiemachine: CONSTORY-CHECKER

4. Wat hebben ze ontdekt? (De Grote Geheimen)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie

A. ConStory-Bench (De Benchmark)

B. Taxonomie van Fouten

C. ConStory-Checker (De Evaluatiepijplijn)

D. Evaluatiemetrics

3. Belangrijkste Resultaten

4. Bijdragen

5. Significantie

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. Het Probleem: De Vergetelheid van de AI

2. De Oplossing: De "Consistency Check" (ConStory-Bench)

3. De Detectiemachine: CONSTORY-CHECKER

4. Wat hebben ze ontdekt? (De Grote Geheimen)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie

A. ConStory-Bench (De Benchmark)

B. Taxonomie van Fouten

C. ConStory-Checker (De Evaluatiepijplijn)

D. Evaluatiemetrics

3. Belangrijkste Resultaten

4. Bijdragen

5. Significantie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA