The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

本文复现并扩展了 Spracklen 等人 2025 年关于大语言模型包幻觉的研究,采用五个 2026 年前沿模型,揭示出尽管幻觉率显著下降且模型间差异缩小,但一种由新识别的 127 个模型无关的幻觉包名称以及独特的跨生态系统和跨模型行为模式所构成的持续威胁依然存在。

原作者: Aleksandr Churilov (Independent Researcher)

发布于 2026-05-19✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Aleksandr Churilov (Independent Researcher)

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象你是一位厨师,正在尝试烹饪一道新菜谱。你向一位超级聪明、由人工智能驱动的副厨师长寻求帮助。副厨师长自信地告诉你:“你需要从杂货店购买SuperSpice-9000!”你来到商店,却发现SuperSpice-9000根本不存在。

在计算机编程的世界里,这个“杂货店”是一个名为PyPI(用于 Python)或npm(用于 JavaScript)的数字仓库。这些仓库存储着数百万个预先制作好的代码“原料”(软件包),程序员可以通过一条命令下载它们。

这篇论文是去年讲述的一个恐怖故事的后续。当时,研究人员发现 AI 厨师在命名原料方面非常糟糕。它们大约 5% 到 22% 的时间会编造像"SuperSpice-9000"这样的虚假名称。一个狡猾的窃贼可以注册一个带有该虚假名称的恶意软件包,等待程序员向 AI 索要它,然后诱骗程序员安装病毒。这被称为"slopsquatting"(恶意占位)。

这篇论文的作者是一位独立研究者,他问道:"两年后,AI 在这方面有所改进吗?"

以下是他们发现的简要说明:

1. “虚假原料”问题有所缩小,但并未消失

研究人员测试了 2026 年初可用的五个最智能的 AI 编程模型(来自 Anthropic、OpenAI、Google 和 DeepSeek 等公司)。

  • 好消息:“最佳”AI 与“最差”AI 之间的差距已大幅缩小。在 2024 年,一些 AI 表现极差(22% 的虚假名称),而另一些则尚可(5%)。到了 2026 年,它们都大致相同:它们编造虚假名称的频率约为4.6% 到 6.1%。糟糕程度的“分布”已经崩溃。
  • 坏消息:威胁依然非常真实。尽管比率下降了,但 4% 到 6% 仍然高到足以让窃贼获利。如果 AI 每 20 次就编造一个虚假名称,窃贼仍然可以注册该虚假名称,并等待成千上万的程序员意外下载它。

2. “通用虚假”的发现

这是论文最大的惊喜。研究人员发现了127 个特定的虚假名称,这五个顶级 AI 模型都编造了这些名称。

  • 类比:想象你问五位不同的专家厨师:“这道汤里的秘密原料是什么?”他们都不约而同地回答:“是BlueFlavor-7",尽管该原料根本不存在。
  • 危险:如果窃贼注册一次"BlueFlavor-7",他们就可以同时攻击所有五家 AI 公司的用户。这是一个“通用陷阱”,不依赖于你使用的是哪种 AI。

3. 一些奇怪的转折

论文发现了一些与我们预期相反的模式:

  • Python 与 JavaScript:在 2024 年,AI 在命名 JavaScript 原料方面表现更差。而在 2026 年,它实际上在命名Python原料方面表现更差。AI 似乎被 Python 混乱的命名规则搞糊涂了。
  • “小”兄弟与“大”兄弟:通常,更小、更便宜的 AI 模型比更大、更昂贵的模型犯更多的错误。但在这里,“小”模型(Claude Haiku)实际上比它的“大兄弟”(Claude Sonnet)编造的虚假名称更少。似乎小模型被训练得对指令格外谨慎。

4. 问题为何缩小?

作者提出了三个原因,解释为何 AI 现在稍好一些:

  1. 拉平竞争环境:“开源”模型(免费使用)变得如此出色,现在它们与“商业”模型(付费)一样聪明,因此它们之间的差距缩小了。
  2. 更好的训练:向 AI 提供数据的公司似乎已经清理了它们的“食谱”(训练数据),以去除更多虚假原料名称。
  3. 标准化训练:所有大型 AI 公司现在都使用相似的教学方法,因此它们都犯着相似的(稍好一点的)错误。

底线

AI 厨师们稍微整顿了一下自己的行为,但它们仍然经常编造虚假原料,足以构成危险。最令人担忧的是,它们都在编造相同的虚假原料。

这篇论文没有说的是

  • 它没有说这个问题已经解决。
  • 它没有说你应该停止使用 AI。
  • 它没有声称所有AI 模型都很糟糕(它们只测试了前 5 个“前沿”模型;更小、更旧的模型可能仍然糟糕得多)。

作者的主要信息是:错误范围已缩小,但威胁依然存在。 程序员和安全团队需要意识到,即使是最聪明的 AI,今天仍可能引导你下载虚假且危险的软件。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →