Position: the Stochastic Parrot in the Coal Mine. Model Collapse is a Threat to Low-Resource Communities

本立场文件认为,模型崩溃——即通过在生成式人工智能自身的输出上进行训练所引发的现象——正通过降低数据质量与效率,威胁到人工智能的民主化进程,进而因加剧文化偏见和环境成本而对资源匮乏及边缘化社区造成不成比例的伤害。

原作者: Devon Jarvis, Richard Klein, Benjamin Rosman, Steven James, Stefano Sarao Mannelli

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Devon Jarvis, Richard Klein, Benjamin Rosman, Steven James, Stefano Sarao Mannelli

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

以下是论文《模型崩溃对低资源社区构成威胁》的通俗解释,辅以日常类比。

大局观:矿井里的“随机鹦鹉”

想象一下矿井里的金丝雀。过去,矿工们用金丝雀来探测危险气体;如果鸟儿停止歌唱,矿工们就知道该逃跑了。

这篇论文认为,低资源社区(讲较少见语言或生活在较贫困地区的人们)就是这些“金丝雀”。他们是首先感受到一种名为模型崩溃(Model Collapse)现象危险的人。

什么是模型崩溃
想象一群复印机在玩“传话”游戏。

  1. 你从一张清晰的原图开始(真实人类数据)。
  2. 你复印了一张。它变得略微模糊。
  3. 你拿那张模糊的复印件再复印一张新的。它变得更模糊了。
  4. 你继续这样做,不断复印复印件。

最终,图像变成了一团浑浊、无法辨认的乱麻。细节消失,只剩下最常见、最通用的形状。

在人工智能的世界里,当新的人工智能模型使用由人工智能模型生成的数据进行训练时,就会发生这种情况。因为人工智能倾向于重复它看到的最常见模式,所以“罕见”和“独特”的细节会随着时间的推移而丢失。人工智能变成了一只随机鹦鹉——它模仿听到的声音,但并不理解含义;经过几代之后,它只重复最大声、最常见的声音,忘记了那些安静、独特的声音。

问题所在:为什么贫困社区最先受到伤害

这篇论文认为,虽然这种“复制游戏”对所有人都有害,但它摧毁低资源社区文化的速度要快得多。原因如下,使用了三个主要比喻:

1. “富人与穷人”的数据饮食

想象两个人试图保持健康。

  • 富裕的人(高资源):拥有一个巨大的食品储藏室,里面装满了新鲜、真实的食物(真实人类数据)。即使他们吃了一些加工过的、人造的食物(人工智能生成的数据),由于他们拥有如此多的真实食物,他们的饮食依然保持健康。
  • 挣扎的人(低资源):储藏室非常小。他们只有几罐真实食物。如果他们不得不依赖加工过的、人造的食物来填饱肚子,他们会很快耗尽真实食物。

论文的观点:低资源语言(如许多非洲语言或原住民语言)在互联网上的数据非常少。如果人工智能开始用人工智能生成的文本填充互联网,这些语言几乎会立即被“毒害”,因为它们没有足够的真实数据来稀释虚假内容。它们独特的文化“风味”将最先消失。

2. 权力的“回声室”

想象一个每个人都在大声喊叫的城镇广场。

  • 最响亮的声音(英语、西方文化、主导观点)已经被所有人听到。
  • 微弱的声音(少数群体、特定的地方方言)几乎听不见。

当人工智能从互联网学习时,它就像一个只放大最响亮声音的扩音器。随着人工智能生成更多内容,它会一遍又一遍地重复那些响亮的声音。微弱的声音被完全淹没。
论文的观点:模型崩溃就像一种“价值锁定”。它将文化冻结在过去,锁定主导观点,并抹去边缘化群体试图改变社会规范或重获其语言的尝试。人工智能忘记了分布的“长尾”——那些罕见、独特和多样的说话方式。

3. 试图修复它的“碳成本”

想象试图修补漏水的屋顶。

  • 富裕的人可以买得起新瓦片并雇佣工人来修复。
  • 挣扎的人不得不试图用胶带和纸板修补,这消耗了他们的积蓄,并使房子变得更热。

论文的观点:为了阻止模型崩溃,研究人员需要更多的真实数据。但收集真实数据成本高昂,并且需要巨大的能源(计算机运行发热)。

  • 低资源社区通常生活在已经遭受气候变化和能源短缺的地区。
  • 他们承担了训练这些庞大人工智能模型的 environmental 成本,却从中获得的利益最少。
  • 他们无法负担“购买”足够的真实数据,以保护其语言不被人工智能生成的噪音抹去。

“随机鹦鹉”类比

论文重温了一个旧观点:人工智能是一只“随机鹦鹉”。它不理解;它只是基于统计数据预测下一个词。

  • 论文的观点:尽管人工智能变得更聪明了,但它仍然是一只鹦鹉。如果你只给鹦鹉喂食最常见的短语,它就会停止说任何有趣的话。
  • 危险:对于低资源社区来说,“有趣的短语”(他们独特的文化、俚语和历史)是鹦鹉最先忘记的东西,因为它们在统计上是罕见的。

论文希望我们做什么?

作者们发出了行动呼吁。他们说,我们不能等到人工智能完全崩溃后再担心这个问题。

  1. 倾听金丝雀:低资源社区需要成为这场对话的领导者,而不是事后才想到的配角。
  2. 保护真实数据:我们需要为这些脆弱的语言创建特殊的“安全区”数据,确保这些内容是真实的人类内容,而非人工智能生成的。
  3. 识别虚假内容:我们需要更好的工具来识别人工智能生成的文本,以便在它们毒害训练数据之前将其过滤掉。
  4. 接受风险:论文承认,也许人工智能在全球范围内不会很快崩溃,但对于特定的小型社区来说,“崩溃”正在此刻发生。

总结

这篇论文警告说,随着人工智能生成更多内容,它会创造一个反馈循环,使人工智能变得更“笨”、更重复。这个过程就像一个过滤器,去除了罕见和独特的内容。由于低资源社区在网络上的代表性本来就不足,他们的独特文化和语言面临被这一过程抹去的最高风险,最终只剩下一个同质化、占主导地位的世界版本。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →