Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 讲故事的能力做一次“体检”，结果发现了一个有趣的问题：AI 是个天才的“开头大师”，但往往是个健忘的“结尾杀手”。

想象一下，你请了一位超级厉害的作家（大语言模型，LLM）来写一部长篇小说。他文笔优美，情节跌宕起伏，一口气能写好几万字。但是，写到一半时，他突然忘了自己之前设定的规矩：

主角明明在第一章是个左撇子，到了第十章却变成了右撇子；
故事背景设定在 1982 年的冬天，中间突然出现了夏天的西瓜；
甚至主角的名字从“小明”变成了“小红”。

这就是论文里说的**“一致性错误”（Consistency Bugs）**。

为了搞清楚 AI 到底哪里“掉链子”，研究团队做了一件很酷的事情，我们可以把它分成三个步骤来理解：

1. 建立了一个“找茬”游乐场：ConStory-Bench

以前的测试主要看 AI 写的故事“通不通顺”、“好不好看”。但这篇论文说：“光好看没用，得看它有没有‘精神分裂’。”

于是，他们建了一个专门的游乐场（基准测试），里面有 2000 个 不同的故事开头，要求 AI 把它们扩写成 8000 到 10000 字 的长篇小说。这就像给 AI 出了一套“超长马拉松”的写作题。

他们给这些错误分了 5 大类，就像给“健忘症”分了科：

时间线混乱：比如昨天是周一，明天突然变回了周日。
人设崩塌：比如一个不会武功的普通人，突然会飞了。
世界观崩坏：比如在魔法世界里突然出现了手机信号塔。
细节对不上：比如角色的眼睛颜色变了，或者衣服颜色乱了。
文风突变：前面是严肃的悲剧，后面突然变成了搞笑段子。

2. 请了个“超级侦探”：ConStory-Checker

光靠人眼去几千字的长文里找错误，累死也找不完。所以，他们开发了一个自动化的“侦探程序”（ConStory-Checker）。

这个侦探的工作流程是这样的：

扫描：像雷达一样扫过全文，找出可疑的段落。
对质：把两个可疑的段落放在一起“对质”。比如：“你说你昨天在纽约，怎么这里又说你在北京？”
举证：如果确实矛盾，侦探会列出证据：“你看，第 3 段你这么说，第 50 段你那么说，这俩不可能同时是真的。”
打分：最后给 AI 的故事打个“一致性分”。

有趣的是，研究团队发现，这个“机器侦探”比人类专家还要厉害！人类专家看长文容易走神，漏掉很多细节，而这个程序能不知疲倦地揪出所有矛盾。

3. 发现了 AI 的“健忘规律”

通过测试几十种不同的 AI 模型，他们发现了一些非常有意思的规律，就像发现了人类记忆力的弱点一样：

“中间遗忘症”：错误最容易出现在故事的中间部分。就像我们听故事，开头和结尾记得清楚，中间容易断片。
“越写越乱”：故事写得越长，出错的可能性就越大。这就像让一个人背一首诗，背到第 100 句时，很容易把第 10 句记错。
“犹豫的地方容易出错”：研究人员发现，当 AI 在生成某个词时“犹豫不决”（也就是数学上的“熵”比较高，它不知道选哪个词好）的时候，最容易犯一致性错误。这就像人在紧张或不确定时，最容易说错话。
“牵一发而动全身”：如果一个地方出现了事实错误（比如名字写错），往往紧接着就会出现其他类型的错误（比如性格也变了）。

总结与启示

这篇论文的核心思想是：现在的 AI 写长故事，虽然能写出很漂亮的句子，但很难维持一个“逻辑自洽”的世界。

这就好比一个演员，演技很好，台词也背得滚瓜烂熟，但演到一半突然忘了自己演的是谁，或者把剧本里的设定给改了。

这对我们意味着什么？

不要盲目信任：如果你让 AI 写长篇小说或长篇报告，一定要人工检查其中的逻辑和事实，不能全信。
未来的方向：研究者们正在努力给 AI 装上“记忆外挂”或者“自我检查机制”，让它像人类作家一样，写的时候能随时回头看看前面写了什么，确保故事从头到尾逻辑通顺。

简单来说，这篇论文就是告诉我们要**“小心 AI 的‘失忆症’"**，并教我们如何科学地给 AI 的“记忆力”做体检。

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. 建立了一个“找茬”游乐场：ConStory-Bench

2. 请了个“超级侦探”：ConStory-Checker

3. 发现了 AI 的“健忘规律”

总结与启示

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 ConStory-Bench 基准测试

2.2 CONSTORY-CHECKER 评估流水线

2.3 评估指标

3. 实验结果与发现 (Results & Findings)

3.1 模型性能 (RQ1)

3.2 长度与错误的关系 (RQ2)

3.3 错误成因与信号 (RQ3)

3.4 错误共现性 (RQ4)

3.5 错误分布位置 (RQ5)

4. 主要贡献 (Key Contributions)

5. 意义与局限性 (Significance & Limitations)

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

1. 建立了一个“找茬”游乐场：ConStory-Bench

2. 请了个“超级侦探”：ConStory-Checker

3. 发现了 AI 的“健忘规律”

总结与启示

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 ConStory-Bench 基准测试

2.2 CONSTORY-CHECKER 评估流水线

2.3 评估指标

3. 实验结果与发现 (Results & Findings)

3.1 模型性能 (RQ1)

3.2 长度与错误的关系 (RQ2)

3.3 错误成因与信号 (RQ3)

3.4 错误共现性 (RQ4)

3.5 错误分布位置 (RQ5)

4. 主要贡献 (Key Contributions)

5. 意义与局限性 (Significance & Limitations)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA