✨ 要点🔬 技术摘要
想象你是一位厨师,正在尝试烹饪一道新菜谱。你向一位超级聪明、由人工智能驱动的副厨师长寻求帮助。副厨师长自信地告诉你:“你需要从杂货店购买SuperSpice-9000 !”你来到商店,却发现SuperSpice-9000 根本不存在。
在计算机编程的世界里,这个“杂货店”是一个名为PyPI (用于 Python)或npm (用于 JavaScript)的数字仓库。这些仓库存储着数百万个预先制作好的代码“原料”(软件包),程序员可以通过一条命令下载它们。
这篇论文是去年讲述的一个恐怖故事的后续。当时,研究人员发现 AI 厨师在命名原料方面非常糟糕。它们大约 5% 到 22% 的时间会编造像"SuperSpice-9000"这样的虚假名称。一个狡猾的窃贼可以注册一个带有该虚假名称的恶意软件包,等待程序员向 AI 索要它,然后诱骗程序员安装病毒。这被称为"slopsquatting "(恶意占位)。
这篇论文的作者是一位独立研究者,他问道:"两年后,AI 在这方面有所改进吗? "
以下是他们发现的简要说明:
1. “虚假原料”问题有所缩小,但并未消失
研究人员测试了 2026 年初可用的五个最智能的 AI 编程模型(来自 Anthropic、OpenAI、Google 和 DeepSeek 等公司)。
好消息 :“最佳”AI 与“最差”AI 之间的差距已大幅缩小。在 2024 年,一些 AI 表现极差(22% 的虚假名称),而另一些则尚可(5%)。到了 2026 年,它们都大致相同:它们编造虚假名称的频率约为4.6% 到 6.1% 。糟糕程度的“分布”已经崩溃。
坏消息 :威胁依然非常真实。尽管比率下降了,但 4% 到 6% 仍然高到足以让窃贼获利。如果 AI 每 20 次就编造一个虚假名称,窃贼仍然可以注册该虚假名称,并等待成千上万的程序员意外下载它。
2. “通用虚假”的发现
这是论文最大的惊喜。研究人员发现了127 个特定的虚假名称 ,这五个顶级 AI 模型都编造了这些名称。
类比 :想象你问五位不同的专家厨师:“这道汤里的秘密原料是什么?”他们都不约而同地回答:“是BlueFlavor-7 ",尽管该原料根本不存在。
危险 :如果窃贼注册一次"BlueFlavor-7",他们就可以同时攻击所有五家 AI 公司的用户。这是一个“通用陷阱”,不依赖于你使用的是哪种 AI。
3. 一些奇怪的转折
论文发现了一些与我们预期相反的模式:
Python 与 JavaScript :在 2024 年,AI 在命名 JavaScript 原料方面表现更差。而在 2026 年,它实际上在命名Python 原料方面表现更差。AI 似乎被 Python 混乱的命名规则搞糊涂了。
“小”兄弟与“大”兄弟 :通常,更小、更便宜的 AI 模型比更大、更昂贵的模型犯更多的错误。但在这里,“小”模型(Claude Haiku)实际上比它的“大兄弟”(Claude Sonnet)编造的虚假名称更少。似乎小模型被训练得对指令格外谨慎。
4. 问题为何缩小?
作者提出了三个原因,解释为何 AI 现在稍好一些:
拉平竞争环境 :“开源”模型(免费使用)变得如此出色,现在它们与“商业”模型(付费)一样聪明,因此它们之间的差距缩小了。
更好的训练 :向 AI 提供数据的公司似乎已经清理了它们的“食谱”(训练数据),以去除更多虚假原料名称。
标准化训练 :所有大型 AI 公司现在都使用相似的教学方法,因此它们都犯着相似的(稍好一点的)错误。
底线
AI 厨师们稍微整顿了一下自己的行为,但它们仍然经常编造虚假原料,足以构成危险。最令人担忧的是,它们都在编造相同 的虚假原料。
这篇论文没有说的是 :
它没有说这个问题已经解决。
它没有说你应该停止使用 AI。
它没有声称所有 AI 模型都很糟糕(它们只测试了前 5 个“前沿”模型;更小、更旧的模型可能仍然糟糕得多)。
作者的主要信息是:错误范围已缩小,但威胁依然存在。 程序员和安全团队需要意识到,即使是最聪明的 AI,今天仍可能引导你下载虚假且危险的软件。
技术摘要:重新评估 2026 年前沿模型群体中的大语言模型包幻觉问题
问题陈述
本文探讨了名为slopsquatting (垃圾包 squatting)的安全漏洞,这是一种供应链攻击向量,即攻击者在 PyPI 或 npm 上注册恶意包,其名称是大语言模型(LLM)会幻觉生成的。当开发者信任包含针对不存在包的 pip install 或 npm install 指令的 LLM 生成代码时,便会无意中安装这些恶意制品。
尽管 Spracklen 等人(USENIX Security '25)在 2024 年确立了该威胁的存在,报告幻觉率从 5.2%(商业模型)到 21.7%(开源模型)不等,但幻觉现象是否随着 2025 年底至 2026 年初发布的前沿模型的快速进步而演变,仍是一个开放的实证问题。具体而言,作者旨在确定幻觉率是否下降、模型间方差是否缩小,以及是否出现了新的、与模型无关的攻击面。
方法论
本研究是对 Spracklen 等人方法的忠实复现,应用于 2025 年 10 月至 2026 年 3 月间发布的五个前沿代码能力 LLM 的新群体:
Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)
实验设计:
提示词语料库: 作者使用了 Spracklen 工件中的确切提示词数据集(原始研究中 16 个模型共 576,000 个提示词),包含 20,163 个 Stack Overflow 问题和 19,806 个 LLM 合成的问题,在 Python 和 JavaScript 之间平均分配。
生成: 共生成 199,845 个代码样本(每个模型约 39,969 个)。
提取与验证: 使用基于正则表达式的启发式方法提取包引用,匹配 pip install、npm install 和导入语句。提取的名称与截至 2026 年 4 月 28 日的 PyPI(500,565 个名称)和 npm(约 300 万个名称)现有包主列表进行验证。
统计分析: 幻觉率计算为未解析引用与总引用的比率。使用 Pearson χ 2 \chi^2 χ 2 统计量进行显著性检验,并采用 Holm–Bonferroni 校正进行成对比较,同时结合 Jaccard 相似性指标来衡量幻觉名称的重叠程度。
主要贡献
前沿模型复现: 对五个最先进模型的包幻觉率进行全面测量,为 2026 年建立新的基准。
识别范围压缩: 记录了与 2024 年数据相比,模型间幻觉分布的显著收窄。
发现通用幻觉: 识别出一组127 个包名称 (PyPI 上 109 个,npm 上 18 个),这五个评估模型均以相同方式对其产生幻觉,构成了与模型无关的攻击面。
异常观察:
Python/JavaScript 幻觉不对称性的反转(Python 率现在更高)。
Anthropic 家族内部的反转,即较小模型(Haiku 4.5)的幻觉少于较大模型(Sonnet 4.6)。
DeepSeek V3.2 与 GPT-5.4-mini 之间的高 Jaccard 相似性(0.343),表明存在共享的训练数据起源或收敛的错误模式。
开放科学工件: 发布复现代码、验证日志和分析脚本,并为完整的幻觉语料库提供经核实的研究人员访问策略。
结果
幻觉率与范围压缩
研究发现,2026 年群体的幻觉率范围从 4.62% (Claude Haiku 4.5)到 6.10% (GPT-5.4-mini)。
压缩: 与 Spracklen 2024 年的发现(5.2%–21.7%)相比,这代表了模型间分布缩小了 11 倍 。
原因: 这种压缩归因于开源权重模型与商业模型之间差距的缩小(例如,DeepSeek V3.2 现已与商业领导者竞争),以及关于包引用的训练数据策展的饱和。
持续性: 尽管有所压缩,但该威胁对攻击者而言仍具有经济可行性,因为即使是 4.62% 的比率,每个模型也能产生数百个独特的幻觉名称。
通用幻觉集
一个关键发现是存在127 个包名称 ,被所有五个 模型幻觉。
意义: 这创造了一个“与模型无关”的攻击面。攻击者注册单个恶意包(例如 opentelemetry 或 @ember/service)即可同时针对五大提供商的任何用户。
机制: 作者认为,这些通用错误源于共享的训练数据子串(例如,文档误用名称)或对命名空间惯例的系统性过度概括(例如,将内部子包视为可安装目标)。
具体异常
语言不对称性: 与 2024 年发现 JavaScript“更嘈杂”相反,2026 年的所有五个模型均表现出更高的 Python 幻觉率(比 JavaScript 高 +2.73 到 +4.13 个百分点)。作者推测,这是由于 Python 的命名惯例(snake_case、连字符、点号)比 JavaScript 更扁平的结构更加异质。
Anthropic 反转: 在 Anthropic 家族内部,Claude Haiku 4.5 (4.62%) 的幻觉显著少于 Claude Sonnet 4.6 (5.41%) 。这与较小模型幻觉更多的典型模式相矛盾。作者将此归因于 Haiku 4.5 默认的“扩展思考”能力以及对指令忠实度的特定后训练强调。
DeepSeek/OpenAI 收敛: DeepSeek V3.2 和 GPT-5.4-mini 显示出最高的成对 Jaccard 相似性(0.343),表明存在共享的偏见或训练数据起源。
意义与主张
本文结论认为,虽然幻觉率的范围 已缩小,但威胁 并未消除。
经济可行性: 在 4–7% 的比率下,由于包注册的零成本性质,slopsquatting 攻击对攻击者而言仍然高度有利可图。
方法论转变: 作者认为,单一模型研究是不够的。通用幻觉集的存在意味着,如果仅评估一个模型,总攻击面将被低估。跨群体交集分析应成为未来安全研究的标准指标。
防御启示: 研究结果强调,安全后训练和模型扩展虽然减少了方差,但并未消除模型收敛于特定错误包名称的根本问题。作者强调,“前沿”已压缩,但低层开源模型可能仍表现出 2024 年观察到的高比率。
该研究对其主张保持适度的语气,指出了局限性,例如训练数据泄露的可能性(因为提示词语料库于 2025 年发布),以及排除了可能通过检索机制减轻幻觉的代理配置。其主要贡献是提供了实证证据,证明 slopsquatting 威胁持续存在,并已演变为一种多提供商漏洞。
每周获取最佳 computer science 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。