想象你是一位厨师，正在尝试烹饪一道新菜谱。你向一位超级聪明、由人工智能驱动的副厨师长寻求帮助。副厨师长自信地告诉你：“你需要从杂货店购买SuperSpice-9000！”你来到商店，却发现SuperSpice-9000根本不存在。

在计算机编程的世界里，这个“杂货店”是一个名为PyPI（用于 Python）或npm（用于 JavaScript）的数字仓库。这些仓库存储着数百万个预先制作好的代码“原料”（软件包），程序员可以通过一条命令下载它们。

这篇论文是去年讲述的一个恐怖故事的后续。当时，研究人员发现 AI 厨师在命名原料方面非常糟糕。它们大约 5% 到 22% 的时间会编造像"SuperSpice-9000"这样的虚假名称。一个狡猾的窃贼可以注册一个带有该虚假名称的恶意软件包，等待程序员向 AI 索要它，然后诱骗程序员安装病毒。这被称为"slopsquatting"（恶意占位）。

这篇论文的作者是一位独立研究者，他问道："两年后，AI 在这方面有所改进吗？"

以下是他们发现的简要说明：

1. “虚假原料”问题有所缩小，但并未消失

研究人员测试了 2026 年初可用的五个最智能的 AI 编程模型（来自 Anthropic、OpenAI、Google 和 DeepSeek 等公司）。

好消息：“最佳”AI 与“最差”AI 之间的差距已大幅缩小。在 2024 年，一些 AI 表现极差（22% 的虚假名称），而另一些则尚可（5%）。到了 2026 年，它们都大致相同：它们编造虚假名称的频率约为4.6% 到 6.1%。糟糕程度的“分布”已经崩溃。
坏消息：威胁依然非常真实。尽管比率下降了，但 4% 到 6% 仍然高到足以让窃贼获利。如果 AI 每 20 次就编造一个虚假名称，窃贼仍然可以注册该虚假名称，并等待成千上万的程序员意外下载它。

2. “通用虚假”的发现

这是论文最大的惊喜。研究人员发现了127 个特定的虚假名称，这五个顶级 AI 模型都编造了这些名称。

类比：想象你问五位不同的专家厨师：“这道汤里的秘密原料是什么？”他们都不约而同地回答：“是BlueFlavor-7"，尽管该原料根本不存在。
危险：如果窃贼注册一次"BlueFlavor-7"，他们就可以同时攻击所有五家 AI 公司的用户。这是一个“通用陷阱”，不依赖于你使用的是哪种 AI。

3. 一些奇怪的转折

论文发现了一些与我们预期相反的模式：

Python 与 JavaScript：在 2024 年，AI 在命名 JavaScript 原料方面表现更差。而在 2026 年，它实际上在命名Python原料方面表现更差。AI 似乎被 Python 混乱的命名规则搞糊涂了。
“小”兄弟与“大”兄弟：通常，更小、更便宜的 AI 模型比更大、更昂贵的模型犯更多的错误。但在这里，“小”模型（Claude Haiku）实际上比它的“大兄弟”（Claude Sonnet）编造的虚假名称更少。似乎小模型被训练得对指令格外谨慎。

4. 问题为何缩小？

作者提出了三个原因，解释为何 AI 现在稍好一些：

拉平竞争环境：“开源”模型（免费使用）变得如此出色，现在它们与“商业”模型（付费）一样聪明，因此它们之间的差距缩小了。
更好的训练：向 AI 提供数据的公司似乎已经清理了它们的“食谱”（训练数据），以去除更多虚假原料名称。
标准化训练：所有大型 AI 公司现在都使用相似的教学方法，因此它们都犯着相似的（稍好一点的）错误。

底线

AI 厨师们稍微整顿了一下自己的行为，但它们仍然经常编造虚假原料，足以构成危险。最令人担忧的是，它们都在编造相同的虚假原料。

这篇论文没有说的是：

它没有说这个问题已经解决。
它没有说你应该停止使用 AI。
它没有声称所有AI 模型都很糟糕（它们只测试了前 5 个“前沿”模型；更小、更旧的模型可能仍然糟糕得多）。

作者的主要信息是：错误范围已缩小，但威胁依然存在。 程序员和安全团队需要意识到，即使是最聪明的 AI，今天仍可能引导你下载虚假且危险的软件。

技术摘要：重新评估 2026 年前沿模型群体中的大语言模型包幻觉问题

问题陈述

本文探讨了名为slopsquatting（垃圾包 squatting）的安全漏洞，这是一种供应链攻击向量，即攻击者在 PyPI 或 npm 上注册恶意包，其名称是大语言模型（LLM）会幻觉生成的。当开发者信任包含针对不存在包的 pip install 或 npm install 指令的 LLM 生成代码时，便会无意中安装这些恶意制品。

尽管 Spracklen 等人（USENIX Security '25）在 2024 年确立了该威胁的存在，报告幻觉率从 5.2%（商业模型）到 21.7%（开源模型）不等，但幻觉现象是否随着 2025 年底至 2026 年初发布的前沿模型的快速进步而演变，仍是一个开放的实证问题。具体而言，作者旨在确定幻觉率是否下降、模型间方差是否缩小，以及是否出现了新的、与模型无关的攻击面。

方法论

本研究是对 Spracklen 等人方法的忠实复现，应用于 2025 年 10 月至 2026 年 3 月间发布的五个前沿代码能力 LLM 的新群体：

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

实验设计：

提示词语料库： 作者使用了 Spracklen 工件中的确切提示词数据集（原始研究中 16 个模型共 576,000 个提示词），包含 20,163 个 Stack Overflow 问题和 19,806 个 LLM 合成的问题，在 Python 和 JavaScript 之间平均分配。
生成： 共生成 199,845 个代码样本（每个模型约 39,969 个）。
提取与验证： 使用基于正则表达式的启发式方法提取包引用，匹配 pip install、npm install 和导入语句。提取的名称与截至 2026 年 4 月 28 日的 PyPI（500,565 个名称）和 npm（约 300 万个名称）现有包主列表进行验证。
统计分析： 幻觉率计算为未解析引用与总引用的比率。使用 Pearson $\chi^2$ 统计量进行显著性检验，并采用 Holm–Bonferroni 校正进行成对比较，同时结合 Jaccard 相似性指标来衡量幻觉名称的重叠程度。

主要贡献

前沿模型复现： 对五个最先进模型的包幻觉率进行全面测量，为 2026 年建立新的基准。
识别范围压缩： 记录了与 2024 年数据相比，模型间幻觉分布的显著收窄。
发现通用幻觉： 识别出一组127 个包名称（PyPI 上 109 个，npm 上 18 个），这五个评估模型均以相同方式对其产生幻觉，构成了与模型无关的攻击面。
异常观察：
- Python/JavaScript 幻觉不对称性的反转（Python 率现在更高）。
- Anthropic 家族内部的反转，即较小模型（Haiku 4.5）的幻觉少于较大模型（Sonnet 4.6）。
- DeepSeek V3.2 与 GPT-5.4-mini 之间的高 Jaccard 相似性（0.343），表明存在共享的训练数据起源或收敛的错误模式。
开放科学工件： 发布复现代码、验证日志和分析脚本，并为完整的幻觉语料库提供经核实的研究人员访问策略。

结果

幻觉率与范围压缩

研究发现，2026 年群体的幻觉率范围从 4.62%（Claude Haiku 4.5）到 6.10%（GPT-5.4-mini）。

压缩： 与 Spracklen 2024 年的发现（5.2%–21.7%）相比，这代表了模型间分布缩小了 11 倍。
原因： 这种压缩归因于开源权重模型与商业模型之间差距的缩小（例如，DeepSeek V3.2 现已与商业领导者竞争），以及关于包引用的训练数据策展的饱和。
持续性： 尽管有所压缩，但该威胁对攻击者而言仍具有经济可行性，因为即使是 4.62% 的比率，每个模型也能产生数百个独特的幻觉名称。

通用幻觉集

一个关键发现是存在127 个包名称，被所有五个模型幻觉。

意义： 这创造了一个“与模型无关”的攻击面。攻击者注册单个恶意包（例如 opentelemetry 或 @ember/service）即可同时针对五大提供商的任何用户。
机制： 作者认为，这些通用错误源于共享的训练数据子串（例如，文档误用名称）或对命名空间惯例的系统性过度概括（例如，将内部子包视为可安装目标）。

具体异常

语言不对称性： 与 2024 年发现 JavaScript“更嘈杂”相反，2026 年的所有五个模型均表现出更高的 Python 幻觉率（比 JavaScript 高 +2.73 到 +4.13 个百分点）。作者推测，这是由于 Python 的命名惯例（snake_case、连字符、点号）比 JavaScript 更扁平的结构更加异质。
Anthropic 反转： 在 Anthropic 家族内部，Claude Haiku 4.5 (4.62%) 的幻觉显著少于 Claude Sonnet 4.6 (5.41%)。这与较小模型幻觉更多的典型模式相矛盾。作者将此归因于 Haiku 4.5 默认的“扩展思考”能力以及对指令忠实度的特定后训练强调。
DeepSeek/OpenAI 收敛： DeepSeek V3.2 和 GPT-5.4-mini 显示出最高的成对 Jaccard 相似性（0.343），表明存在共享的偏见或训练数据起源。

意义与主张

本文结论认为，虽然幻觉率的范围已缩小，但威胁并未消除。

经济可行性： 在 4–7% 的比率下，由于包注册的零成本性质，slopsquatting 攻击对攻击者而言仍然高度有利可图。
方法论转变： 作者认为，单一模型研究是不够的。通用幻觉集的存在意味着，如果仅评估一个模型，总攻击面将被低估。跨群体交集分析应成为未来安全研究的标准指标。
防御启示： 研究结果强调，安全后训练和模型扩展虽然减少了方差，但并未消除模型收敛于特定错误包名称的根本问题。作者强调，“前沿”已压缩，但低层开源模型可能仍表现出 2024 年观察到的高比率。

该研究对其主张保持适度的语气，指出了局限性，例如训练数据泄露的可能性（因为提示词语料库于 2025 年发布），以及排除了可能通过检索机制减轻幻觉的代理配置。其主要贡献是提供了实证证据，证明 slopsquatting 威胁持续存在，并已演变为一种多提供商漏洞。

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort