Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Die Arbeit stellt ConStory-Bench, einen Benchmark mit 2.000 Prompts und einer detaillierten Fehler-Taxonomie, sowie ConStory-Checker, ein automatisiertes Prüfverfahren, vor, um Inkonsistenzen in langen von LLMs generierten Geschichten zu analysieren und deren systematische Verteilung zu untersuchen.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen unglaublich talentierten Geschichtenerzähler, der eine Bibliothek voller Bücher auswendig kennt und in Sekundenbruchteilen neue Geschichten schreiben kann. Aber es gibt ein kleines, aber nerviges Problem: Er vergisst, was er gerade erzählt hat.

Das ist genau das, was die Forscher in diesem Papier mit dem Titel "Lost in Stories" (Verloren in Geschichten) untersucht haben. Sie haben herausgefunden, dass große KI-Modelle (LLMs), wenn sie sehr lange Geschichten schreiben (z. B. 10.000 Wörter), oft den Faden verlieren.

Hier ist die einfache Erklärung der Studie, aufgeteilt in drei Teile:

1. Das Problem: Der vergessliche Erzähler

Wenn du eine kurze Geschichte schreibst, ist es einfach, sich an alles zu erinnern. Aber wenn die Geschichte so lang wird wie ein ganzer Roman, passiert Folgendes:

  • Der Charakter ändert sich: Im ersten Kapitel hat der Held braune Augen, im letzten Kapitel sind sie plötzlich blau.
  • Die Zeit reist: Ein Ereignis findet im Winter statt, aber drei Seiten später ist es plötzlich Hochsommer, ohne dass die Jahreszeit gewechselt wurde.
  • Die Welt bricht zusammen: Eine Regel, die am Anfang der Geschichte galt (z. B. "Magie kostet immer eine Seele"), wird später ignoriert.

Bisher haben die Tests für diese KIs sich nur darauf konzentriert, ob die Geschichte gut klingt (flüssig) oder ob der Plot spannend ist. Niemand hat wirklich geprüft, ob die KI sich selbst widerspricht.

2. Die Lösung: Der "Story-Checker" und der neue Test

Um das zu ändern, haben die Forscher zwei Dinge entwickelt:

  • ConStory-Bench (Der Prüfstand): Das ist wie ein riesiger Fragenkatalog mit 2.000 verschiedenen Aufgaben. Die KI muss daraufhin Geschichten schreiben. Es gibt vier Arten von Aufgaben:

    1. Erfinden: Eine Geschichte aus dem Nichts erschaffen.
    2. Fortsetzen: Eine angefangene Geschichte zu Ende schreiben.
    3. Erweitern: Eine kurze Zusammenfassung in einen ganzen Roman verwandeln.
    4. Vollenden: Eine Geschichte mit festem Anfang und Ende schreiben.
  • ConStory-Checker (Der Detektiv): Das ist eine automatische Software, die die geschriebenen Geschichten liest und wie ein strenger Lektor nach Fehlern sucht. Sie macht das in drei Schritten:

    1. Suchen: Sie scannt den Text nach verdächtigen Stellen (z. B. "Hat der Held hier eine Waffe?").
    2. Vergleichen: Sie sucht im Rest der Geschichte, ob der Held dort ohne Waffe war.
    3. Beweise sammeln: Wenn sie einen Widerspruch findet, zeigt sie genau an, wo im Text der Fehler steht und zitiert die beiden Sätze, die sich widersprechen.

3. Was sie herausgefunden haben (Die spannenden Details)

Die Forscher haben viele verschiedene KI-Modelle getestet und einige sehr interessante Muster gefunden:

  • Die Mitte ist gefährlich: Fehler passieren am häufigsten in der Mitte der Geschichte.
    • Metapher: Stell dir vor, du läufst einen Marathon. Am Anfang bist du frisch und konzentriert. Ganz am Ende bist du müde, aber du hast das Ziel vor Augen. Aber in der Mitte, wenn du noch weit vom Ziel entfernt bist und die Beine schwer werden, fängst du an, stolpern und Dinge zu vergessen. Die KI "verliert" ihren Fokus in der Mitte des Textes.
  • Unsicherheit ist der Auslöser: Wenn die KI unsicher ist, welche Wortwahl sie treffen soll (das nennt man "hohe Entropie"), macht sie eher Fehler.
    • Metapher: Es ist wie beim Autofahren bei Nebel. Wenn du nicht genau siehst, wo die Straße hingeht, fährst du langsamer und vorsichtiger. Aber wenn die KI unsicher ist, "rutscht" sie eher in den falschen Graben (den Fehler).
  • Fakten sind das Schwächste: Die KI macht am meisten Fehler bei Fakten (z. B. "Wie alt ist der Charakter?") und bei der Zeit (z. B. "Wann ist das passiert?").
  • Länge ist ein zweischneidiges Schwert: Je länger die Geschichte wird, desto mehr Fehler häufen sich an. Aber manche KIs schreiben lieber sehr kurze Geschichten, um Fehler zu vermeiden, während andere mutig lange Romane schreiben, aber dabei viele Widersprüche produzieren.

Fazit

Die Studie zeigt uns, dass KIs zwar fantastische Wörter finden können, aber noch nicht gut darin sind, eine konsistente Welt über lange Strecken aufrechtzuerhalten. Sie sind wie ein brillanter Improvisationskünstler, der aber sein Skript vergisst, sobald der Vorhang zu lange offen steht.

Die Hoffnung ist, dass diese neuen Tests ("ConStory-Bench") und der Detektiv ("ConStory-Checker") den Entwicklern helfen, die KIs zu trainieren, damit sie in Zukunft nicht nur gute Geschichten erzählen, sondern auch keine Lügen in ihrer eigenen Geschichte verbreiten.