Drift and selection in LLM text ecosystems

该论文建立了一个可精确求解的数学框架,用于分析由生成式文本递归进入公共语料库所引发的“漂移”与“选择”两种力量,揭示了无过滤的递归发布会导致文本结构扁平化,而基于质量或规范性的筛选机制则能维持更丰富的文本结构。

Søren Riis

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章探讨了一个非常有趣且紧迫的问题:当人工智能(AI)开始大量生成文本,而这些文本又被用来训练下一代 AI 时,会发生什么?

作者 Søren Riis 用数学模型告诉我们,这就像是一个“回声室”效应,但比那更复杂。他提出了两个核心力量:“漂移”(Drift)“选择”(Selection)

我们可以把整个互联网上的文本库想象成一个巨大的图书馆,而 AI 和人类是这里的抄写员

1. 核心比喻:图书馆的“复印机”与“图书管理员”

想象一下,这个图书馆里有一台神奇的复印机(AI 模型)

  • 它先阅读图书馆里现有的书。
  • 然后,它根据读到的内容,写出一本新书。
  • 这本新书又被放回图书馆,成为下一轮复印的素材。

如果这个过程无限循环下去,图书馆会变成什么样?作者发现,这取决于谁在控制复印机,以及谁在决定哪些书能进图书馆

2. 第一股力量:漂移(Drift)—— 像“传话游戏”一样的遗忘

什么是漂移?
想象你在玩“传话游戏”(Telephone game)。第一个人说了一句长话,传给第二个人,第二个人再传给第三个人……每传一次,都会因为记不住而漏掉几个词。

在 AI 的世界里,这就是漂移

  • 现象:AI 在生成文本时,会倾向于使用它最熟悉的、最常见的词和句式。那些生僻的、独特的、复杂的表达(就像传话游戏中被漏掉的词),因为出现频率低,在一次次“复印”中逐渐消失。
  • 后果:图书馆里的书变得越来越平庸。生僻的词汇消失了,独特的风格消失了,剩下的都是最安全、最普通的“大白话”。
  • 比喻:就像一条河流,如果只允许最圆润的鹅卵石通过,经过无数次的冲刷,河床里最后只剩下光滑的沙子,那些有棱角的石头(独特的思想)都被冲走了。

结论:如果没有人为干预,AI 生成的文本循环会让世界变得越来越浅薄(Shallow),失去深度和多样性。

3. 第二股力量:选择(Selection)—— 图书管理员的“过滤器”

什么是选择?
现在,假设图书馆里有一位图书管理员(人类或审核机制)。

  • 情况 A:描述性出版(Descriptive)
    管理员只是机械地复印。不管书里写得好不好,只要是从图书馆里复印出来的,就放回去。

    • 结果:这回到了上面的“漂移”问题。图书馆最终会变得非常浅薄,因为 AI 只会复制它自己已经生成的平庸内容。这就好比 AI 在对着镜子自言自语,越说越没新意。
  • 情况 B:规范性出版(Normative)
    管理员有标准。他不仅看内容,还检查:

    • 这句话逻辑通顺吗?(正确性)
    • 这个观点新颖吗?(创新性)
    • 这个代码能运行吗?(验证)
      只有通过了这些“考试”的内容,才能被放回图书馆。
    • 结果:这种“筛选”就像是一个过滤器。它阻止了平庸内容的无限复制,保留了那些经过深思熟虑、结构复杂的内容。
    • 比喻:这就像是一个严格的编辑。虽然 AI 可能会写出很多废话,但编辑只把精彩的章节留下来。这样,图书馆里的书虽然数量可能变少,但质量深度却得到了保持,甚至因为筛选机制的存在,AI 学会了如何写出更深奥的内容。

4. 关键发现:深度是如何消失或保留的?

作者用数学证明了两个惊人的事实:

  1. 如果没有“编辑”(只有漂移)
    无论 AI 多么聪明,如果它只是不断复制自己生成的内容,它最终会退化成只会说“套话”的机器。它失去了理解长逻辑链条的能力,因为那些复杂的逻辑链条在反复复制中断裂了。这就叫**“浅薄化”**。

  2. 如果有“编辑”(存在选择)
    如果我们在 AI 生成文本后,加入验证、纠错或奖励机制(比如只发布通过测试的代码,只发布逻辑严密的论文),那么 AI 就能保留“深度”。

    • 比喻:想象 AI 在练习走钢丝。
      • 无筛选:它随便走,摔倒了就爬起来继续走,最后它只学会了怎么在平地上走(浅层)。
      • 有筛选:只有走稳了、没掉下来的人才能留下。久而久之,留下的都是走钢丝的高手,整个群体都学会了高难度的平衡技巧(深层结构)。

5. 这对我们意味着什么?

这篇文章其实是在给未来的 AI 训练敲警钟,同时也给出了解决方案

  • 警告:如果我们只是把 AI 生成的垃圾数据(没有经过人类审核的)喂给下一代 AI,AI 会“近亲繁殖”,变得越来越傻,越来越只会说车轱辘话。这就是所谓的“模型崩溃”(Model Collapse)。
  • 希望:我们不需要完全停止使用 AI 数据。关键在于如何筛选
    • 我们需要建立**“过滤器”**:让 AI 生成的内容经过验证、修正,或者由人类专家挑选出真正有价值的部分。
    • 只要有了这个“筛选机制”,AI 生成的文本就可以成为高质量的训练素材,甚至帮助 AI 学会更复杂的推理(比如数学证明、代码编写)。

总结

这就好比烹饪

  • 漂移:如果你只用昨天剩下的菜汤(AI 生成的文本)做新汤,而且不加任何新调料,汤的味道会越来越淡,最后变成白开水。
  • 选择:如果你有一个美食家(筛选机制),他只允许味道好、营养丰富的汤进入食谱,并剔除那些难喝的。那么,即使原料来自昨天的汤,经过美食家的筛选和改良,新汤依然可以美味且营养丰富。

一句话总结:AI 文本生态系统的未来,不取决于 AI 能写多少字,而取决于我们如何筛选这些字。只有经过严格筛选和验证的“好内容”,才能防止 AI 变得肤浅,并让它学会更深层的智慧。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →