Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen unglaublich talentierten Geschichtenerzähler, der eine Bibliothek voller Bücher auswendig kennt und in Sekundenbruchteilen neue Geschichten schreiben kann. Aber es gibt ein kleines, aber nerviges Problem: Er vergisst, was er gerade erzählt hat.

Das ist genau das, was die Forscher in diesem Papier mit dem Titel "Lost in Stories" (Verloren in Geschichten) untersucht haben. Sie haben herausgefunden, dass große KI-Modelle (LLMs), wenn sie sehr lange Geschichten schreiben (z. B. 10.000 Wörter), oft den Faden verlieren.

Hier ist die einfache Erklärung der Studie, aufgeteilt in drei Teile:

1. Das Problem: Der vergessliche Erzähler

Wenn du eine kurze Geschichte schreibst, ist es einfach, sich an alles zu erinnern. Aber wenn die Geschichte so lang wird wie ein ganzer Roman, passiert Folgendes:

Der Charakter ändert sich: Im ersten Kapitel hat der Held braune Augen, im letzten Kapitel sind sie plötzlich blau.
Die Zeit reist: Ein Ereignis findet im Winter statt, aber drei Seiten später ist es plötzlich Hochsommer, ohne dass die Jahreszeit gewechselt wurde.
Die Welt bricht zusammen: Eine Regel, die am Anfang der Geschichte galt (z. B. "Magie kostet immer eine Seele"), wird später ignoriert.

Bisher haben die Tests für diese KIs sich nur darauf konzentriert, ob die Geschichte gut klingt (flüssig) oder ob der Plot spannend ist. Niemand hat wirklich geprüft, ob die KI sich selbst widerspricht.

2. Die Lösung: Der "Story-Checker" und der neue Test

Um das zu ändern, haben die Forscher zwei Dinge entwickelt:

ConStory-Bench (Der Prüfstand): Das ist wie ein riesiger Fragenkatalog mit 2.000 verschiedenen Aufgaben. Die KI muss daraufhin Geschichten schreiben. Es gibt vier Arten von Aufgaben:
1. Erfinden: Eine Geschichte aus dem Nichts erschaffen.
2. Fortsetzen: Eine angefangene Geschichte zu Ende schreiben.
3. Erweitern: Eine kurze Zusammenfassung in einen ganzen Roman verwandeln.
4. Vollenden: Eine Geschichte mit festem Anfang und Ende schreiben.
ConStory-Checker (Der Detektiv): Das ist eine automatische Software, die die geschriebenen Geschichten liest und wie ein strenger Lektor nach Fehlern sucht. Sie macht das in drei Schritten:
1. Suchen: Sie scannt den Text nach verdächtigen Stellen (z. B. "Hat der Held hier eine Waffe?").
2. Vergleichen: Sie sucht im Rest der Geschichte, ob der Held dort ohne Waffe war.
3. Beweise sammeln: Wenn sie einen Widerspruch findet, zeigt sie genau an, wo im Text der Fehler steht und zitiert die beiden Sätze, die sich widersprechen.

3. Was sie herausgefunden haben (Die spannenden Details)

Die Forscher haben viele verschiedene KI-Modelle getestet und einige sehr interessante Muster gefunden:

Die Mitte ist gefährlich: Fehler passieren am häufigsten in der Mitte der Geschichte.
- Metapher: Stell dir vor, du läufst einen Marathon. Am Anfang bist du frisch und konzentriert. Ganz am Ende bist du müde, aber du hast das Ziel vor Augen. Aber in der Mitte, wenn du noch weit vom Ziel entfernt bist und die Beine schwer werden, fängst du an, stolpern und Dinge zu vergessen. Die KI "verliert" ihren Fokus in der Mitte des Textes.
Unsicherheit ist der Auslöser: Wenn die KI unsicher ist, welche Wortwahl sie treffen soll (das nennt man "hohe Entropie"), macht sie eher Fehler.
- Metapher: Es ist wie beim Autofahren bei Nebel. Wenn du nicht genau siehst, wo die Straße hingeht, fährst du langsamer und vorsichtiger. Aber wenn die KI unsicher ist, "rutscht" sie eher in den falschen Graben (den Fehler).
Fakten sind das Schwächste: Die KI macht am meisten Fehler bei Fakten (z. B. "Wie alt ist der Charakter?") und bei der Zeit (z. B. "Wann ist das passiert?").
Länge ist ein zweischneidiges Schwert: Je länger die Geschichte wird, desto mehr Fehler häufen sich an. Aber manche KIs schreiben lieber sehr kurze Geschichten, um Fehler zu vermeiden, während andere mutig lange Romane schreiben, aber dabei viele Widersprüche produzieren.

Fazit

Die Studie zeigt uns, dass KIs zwar fantastische Wörter finden können, aber noch nicht gut darin sind, eine konsistente Welt über lange Strecken aufrechtzuerhalten. Sie sind wie ein brillanter Improvisationskünstler, der aber sein Skript vergisst, sobald der Vorhang zu lange offen steht.

Die Hoffnung ist, dass diese neuen Tests ("ConStory-Bench") und der Detektiv ("ConStory-Checker") den Entwicklern helfen, die KIs zu trainieren, damit sie in Zukunft nicht nur gute Geschichten erzählen, sondern auch keine Lügen in ihrer eigenen Geschichte verbreiten.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Lost in Stories: Consistency Bugs in Long Story Generation by LLMs" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) haben zwar die Fähigkeit erlangt, narrative Texte mit Tausenden von Wörtern zu generieren, leiden jedoch unter einem gravierenden Mangel an Konsistenz über lange Kontexte hinweg. Während bestehende Benchmarks oft auf Plot-Qualität und sprachliche Flüssigkeit fokussieren, bleiben Inkonsistenzen in Fakten, Charaktereigenschaften und Weltregeln weitgehend unerforscht.
Das zentrale Problem ist, dass Modelle bei der Generierung langer Geschichten oft ihre eigenen etablierten Tatsachen widersprechen (z. B. ändert sich die Augenfarbe eines Charakters, Zeitlinien werden gebrochen oder Weltregeln verletzt werden), ohne dass es dafür systematische Evaluierungsmechanismen oder eine klare Taxonomie von Fehlern gibt.

2. Methodik

Die Autoren stellen eine umfassende Lösung vor, die aus drei Hauptkomponenten besteht:

A. ConStory-Bench (Der Benchmark)

Dies ist ein neuer Benchmark speziell zur Evaluierung der narrativen Konsistenz in langen Geschichten.

Datensatz: Enthält 2.000 Prompts, die aus sieben öffentlichen Korpora (z. B. LongBench, WritingPrompts) abgeleitet und mittels LLM-Rewriting in vier spezifische Aufgabentypen umgewandelt wurden:
1. Generation: Freie Erzählung aus minimalen Vorgaben.
2. Continuation: Fortsetzung eines Story-Ausschnitts.
3. Expansion: Ausarbeitung einer knappen Zusammenfassung zu einer langen Geschichte.
4. Completion: Ausfüllen einer Lücke zwischen festgelegtem Anfang und Ende.
Ziel: Generierung von Geschichten mit einer Länge von 8.000 bis 10.000 Wörtern.
Fehler-Taxonomie: Eine hierarchische Klassifikation von Inkonsistenzen in 5 Hauptkategorien mit 19 feingranularen Subtypen:
1. Timeline & Plot Logic: Zeitliche Widersprüche, kausale Brüche, aufgegeben Plot-Elemente.
2. Characterization: Gedächtniswidersprüche, Wissenslücken, Schwankungen in Fähigkeiten.
3. World-building & Setting: Verletzung von Weltregeln, soziale Normen, geografische Widersprüche.
4. Factual & Detail Consistency: Erscheinungsbild, Namensverwechslungen, quantitative Fehler.
5. Narrative & Style: Perspektivwechsel, Tonfall-Inkonsistenzen, Stilbrüche.

B. CONSTORY-CHECKER (Die Evaluierungspipeline)

Ein automatisierter „LLM-as-a-Judge"-Pipeline, der Widersprüche erkennt und jede Bewertung durch explizite Textbelege untermauert. Der Prozess läuft in vier Stufen ab:

Kategorie-gesteuerte Extraktion: Scannen des Textes nach verdächtigen Spanen basierend auf den 5 Kategorien.
Paarweise Gegenüberstellung: Vergleich der extrahierten Spanen, um konsistente von widersprüchlichen Paaren zu unterscheiden (Reduktion von False Positives).
Beweisketten (Evidence Chains): Für jeden Fehler wird eine Begründung, die zitierten Textstellen (mit Positionen) und die Fehlerkategorie dokumentiert.
JSON-Berichte: Strukturierte Ausgabe aller Fehler mit präzisen Offset-Referenzen.
Validierung: Die Pipeline wurde gegen menschliche Experten getestet und zeigte eine signifikant höhere Recall-Rate (55,0 % vs. 17,1 % bei Menschen) bei der Erkennung von Inkonsistenzen.

C. Evaluierungs-Metriken

Um Verzerrungen durch unterschiedliche Textlängen zu vermeiden, wurden zwei Metriken eingeführt:

Consistency Error Density (CED): Anzahl der Fehler pro 10.000 Wörtern (normalisiert nach Länge).
Group Relative Rank (GRR): Ein Ranking, das Modelle innerhalb einer Prompt-Gruppe basierend auf einer qualitätsbewussten Score-Funktion ( $Q = \frac{Wörter}{1 + Fehler}$ ) vergleicht, um sowohl Konsistenz als auch Vollständigkeit zu berücksichtigen.

3. Wichtige Ergebnisse

Die Studie evaluierte eine breite Palette von Modellen (proprietär, Open-Source, capability-enhanced, Agent-Systeme) und beantwortete fünf Forschungsfragen:

Leistungsfähigkeit: Die meisten Modelle haben Schwierigkeiten, Konsistenz über lange Texte hinweg zu wahren. GPT-5-Reasoning erzielte die beste Leistung (niedrigste CED von 0,113), gefolgt von Gemini-2.5-Pro und Claude-Sonnet-4.5. Open-Source-Modelle wie GLM-4.6 und Qwen3-32B zeigten wettbewerbsfähige Ergebnisse.
Häufigste Fehler: Die dominanten Fehlermodi sind Faktische & Detail-Konsistenz und Timeline & Plot-Logik. Dies deutet darauf hin, dass das Tracking von Entitäten und das zeitliche Schlussfolgern die größten Herausforderungen bleiben.
Einfluss der Aufgabentypen: Generation-Aufgaben (ohne Kontext) führen zu signifikant höheren Fehlerraten als Continuation oder Completion.
Längenabhängigkeit: Fehlerzahlen steigen nahezu linear mit der Textlänge an. Modelle, die längere Texte generieren, akkumulieren mehr Widersprüche, obwohl sie die Geschichte vollständiger erzählen.
Ursachenanalyse (Unsicherheit): Fehler treten signifikant häufiger in Textsegmenten mit höherer Token-Level-Entropie auf (ca. 12–19 % höher als im Durchschnitt). Dies zeigt, dass Modelle Fehler eher in Momenten geringer Gewissheit machen. Entropie kann somit als Frühwarnsignal für Inkonsistenzen dienen.
Korrelationen: Fehlerarten treten nicht unabhängig auf. Faktische Konsistenz korreliert stark mit Charakter- und Welten-Konsistenz. Narrative & Style-Fehler hingegen korrelieren kaum mit anderen Kategorien.
Positionale Verteilung: Widersprüche häufen sich typischerweise im mittleren bis späten Verlauf der Geschichte (40–60 % der Länge), während die ursprünglichen Fakten meist im frühen bis mittleren Bereich (15–30 %) etabliert werden. Geografische und zeitliche Widersprüche weisen die größten Abstände zwischen Fakt und Widerspruch auf.

4. Hauptbeiträge

ConStory-Bench: Der erste umfassende Benchmark mit 2.000 Prompts und einer detaillierten Taxonomie (5 Kategorien, 19 Subtypen) zur systematischen Evaluierung narrativer Konsistenz.
CONSTORY-CHECKER: Eine automatisierte, nachvollziehbare Pipeline, die nicht nur Fehler erkennt, sondern diese durch direkte Textzitate und Begründungen belegt.
Systematische Analyse: Eine tiefgehende Untersuchung der Fehlerverteilung, der Korrelationen zwischen Fehlerarten und der Beziehung zwischen Modellunsicherheit (Entropie) und Konsistenzfehlern über eine breite Palette von State-of-the-Art-Modellen.

5. Bedeutung und Ausblick

Die Arbeit zeigt, dass die Fähigkeit, lange Geschichten konsistent zu erzählen, für LLMs nach wie vor eine kritische Schwachstelle ist. Die Ergebnisse unterstreichen, dass reine Kontextvergrößerung nicht ausreicht; es sind neue Mechanismen für das Langzeit-Gedächtnis und das Überwachen von Entitäten notwendig.
Die identifizierten Muster (z. B. die Korrelation von Entropie mit Fehlern) bieten konkrete Ansatzpunkte für zukünftige Forschung, wie z. B. das Einbauen von Selbstkorrektur-Schleifen bei hoher Unsicherheit oder die Entwicklung von Architekturen, die spezifisch auf das Management von Langzeit-Kontexten ausgelegt sind. Der Benchmark und die Pipeline stehen der Community als offene Ressourcen zur Verfügung, um Fortschritte in diesem Bereich messbar zu machen.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. Das Problem: Der vergessliche Erzähler

2. Die Lösung: Der "Story-Checker" und der neue Test

3. Was sie herausgefunden haben (Die spannenden Details)

Fazit

1. Problemstellung

2. Methodik

A. ConStory-Bench (Der Benchmark)

B. CONSTORY-CHECKER (Die Evaluierungspipeline)

C. Evaluierungs-Metriken

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA