Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un robot écrivain de raconter une histoire épique, longue comme un roman entier (plus de 8 000 mots). C'est un peu comme demander à un enfant de 5 ans de raconter toute sa vie, de sa naissance jusqu'à aujourd'hui, sans jamais se tromper sur le nom de ses amis, la couleur de sa maison ou l'année où il a appris à marcher.

C'est exactement ce que les chercheurs de Microsoft et de l'Université de Technologie de Singapour ont testé dans leur nouvelle étude, "Lost in Stories" (Perdu dans les histoires).

Voici l'explication simple de leur découverte, avec quelques images pour mieux comprendre :

1. Le Problème : L'Amnésie du Robot

Les grands modèles de langage (les IA comme moi) sont devenus très doués pour écrire. Mais quand on leur demande d'écrire une histoire très longue, ils commencent à oublier.

L'analogie : Imaginez un conteur qui commence son histoire en disant : "Il était une fois un dragon vert nommé Sparky."
Au chapitre 3, il dit : "Sparky, le dragon rouge, s'envola."
Au chapitre 10, il ajoute : "Le dragon bleu, qui n'avait jamais existé, arriva."

Le robot a oublié ce qu'il a écrit il y a 2 000 mots. Il se contredit lui-même. C'est ce qu'on appelle un bug de cohérence.

2. La Solution : Le "Détective de l'Histoire" (ConStory-Bench)

Pour mesurer à quel point ces robots sont mauvais (ou bons) pour ne pas oublier, les chercheurs ont créé un terrain de jeu géant appelé ConStory-Bench.

C'est une bibliothèque de 2 000 prompts (des demandes d'écriture) pour créer des histoires de 8 000 à 10 000 mots.
Ils ont aussi inventé un détective automatique nommé ConStory-Checker.

Comment fonctionne le détective ?
Au lieu de simplement lire l'histoire, le détective agit comme un juge de tribunal :

Il repère les passages suspects (ex: "Le dragon est rouge").
Il fouille dans le reste du texte pour trouver le contre-exemple (ex: "Le dragon est vert").
Il sort son marteau et dit : "Preuve ! Voici le texte A et le texte B qui se contredisent. Coupable !"

3. Les Découvertes : Où les robots échouent-ils ?

En testant des dizaines de robots écrivains (les plus célèbres du monde), ils ont trouvé des règles étranges sur la façon dont les erreurs se produisent :

L'oubli des dates et des faits : C'est là que les robots échouent le plus. Ils confondent les années, les saisons ou les détails physiques (comme la couleur des yeux d'un personnage).
- Analogie : C'est comme si un cuisinier mettait du sel dans le gâteau, puis 50 pages plus loin, il disait : "Ah, j'ai oublié le sel, je vais en mettre maintenant", alors que le gâteau est déjà cuit.
Le milieu de l'histoire est le point faible : Les erreurs n'arrivent pas au début ni à la fin, mais souvent au milieu.
- Pourquoi ? C'est comme un voyage en voiture. Au début, vous êtes frais et vous savez où vous allez. À la fin, vous êtes arrivé. Mais au milieu, après 500 km, vous commencez à vous perdre et à faire des erreurs de direction.
L'incertitude trahit l'erreur : Les chercheurs ont découvert un secret : quand le robot hésite (quand il "pense" fort et que ses choix sont incertains), c'est souvent là qu'il va faire une erreur.
- L'image : C'est comme un joueur de tennis qui commence à trembler. Quand il hésite sur sa raquette, il va probablement rater le coup.

4. Le Verdict : Qui gagne ?

Ils ont comparé les robots les plus connus (GPT, Claude, Gemini, etc.).

Le gagnant actuel : Un modèle nommé GPT-5-Reasoning est le meilleur, mais même lui ne fait pas de miracles. Il fait encore des erreurs, juste moins que les autres.
La leçon : Aucun robot n'est encore capable de raconter une histoire de 10 000 mots sans se contredire une seule fois. Ils sont comme des enfants brillants qui ont une mémoire à court terme incroyable, mais qui oublient tout ce qui s'est passé il y a un moment.

En résumé

Cette étude nous dit que pour écrire de vraies histoires longues avec l'IA, nous ne devons pas seulement nous fier à sa capacité à écrire de belles phrases. Nous devons lui apprendre à se souvenir de ce qu'elle a écrit il y a 50 pages.

Pour l'instant, l'IA est un excellent improvisateur, mais elle a encore besoin d'un directeur de théâtre (un humain ou un système de vérification) pour s'assurer que le dragon reste vert jusqu'à la fin de la pièce !

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. Le Problème : L'Amnésie du Robot

2. La Solution : Le "Détective de l'Histoire" (ConStory-Bench)

3. Les Découvertes : Où les robots échouent-ils ?

4. Le Verdict : Qui gagne ?

En résumé

1. Problématique

2. Méthodologie

A. ConStory-Bench (Le Benchmark)

B. CONSTORY-CHECKER (Le Pipeline d'Évaluation)

C. Métriques d'Évaluation

3. Résultats Clés

4. Contributions Principales

5. Signification et Impact

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. Le Problème : L'Amnésie du Robot

2. La Solution : Le "Détective de l'Histoire" (ConStory-Bench)

3. Les Découvertes : Où les robots échouent-ils ?

4. Le Verdict : Qui gagne ?

En résumé

1. Problématique

2. Méthodologie

A. ConStory-Bench (Le Benchmark)

B. CONSTORY-CHECKER (Le Pipeline d'Évaluation)

C. Métriques d'Évaluation

3. Résultats Clés

4. Contributions Principales

5. Signification et Impact

Articles similaires

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA