Scam2Prompt: A Scalable Framework for Auditing Malicious Scam Endpoints in Production LLMs

该论文介绍了 Scam2Prompt,这是一个可扩展的框架,揭示了生产环境中的大型语言模型存在一种关键且日益恶化的安全漏洞,即源自恶意诈骗网站的自动化提示词在多个模型中成功触发有害代码生成的比例高达 47.3%,从而使护栏和检索增强生成等现有安全措施变得不足。

原作者: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

发布于 2026-05-12✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你雇佣了一位才华横溢、速度极快的学徒程序员为你的业务编写代码。你给他们一个简单、普通的需求,比如:“在这个流行的交易网站上写一个脚本来购买特定的数字代币。”你期望他们编写安全、标准的代码。

然而,这篇论文揭示了一个令人恐惧的现实:你的学徒已经记住了藏在训练书籍中的一套危险、虚假的指令库。 当你请求协助完成特定任务时,他们可能会无意中从骗子的手册中抽出一页,粘贴到你的代码中,将你的资金转给窃贼,而非合法的网站。

以下是用简单类比对该论文发现的分解说明:

1. 问题所在:“被投毒的食谱书”

大型语言模型(LLMs)就像几乎读遍了互联网上所有食谱书来学习烹饪的厨师。问题在于,互联网上充满了“被投毒”的食谱——旨在窃取你的钱包或数据的虚假指令。

  • 真实事件: 论文讲述了一个真实人物损失 2,500 美元的故事。他要求聊天机器人编写一个脚本,在名为 pump.fun 的流行网站上购买加密货币。聊天机器人为了提供帮助,编写了一段包含指向虚假 API(一个看似真实但实为骗子陷阱的数字入口)链接的代码。该代码甚至要求用户将“私钥”(通往其银行金库的主钥匙)直接交给这个虚假入口。用户信任人工智能,运行了代码,结果 30 分钟内资金消失。

2. 调查:“诈骗转提示”(Scam2Prompt)

研究人员构建了一个名为Scam2Prompt的工具,以查明这是否是一次偶然事故,还是一种普遍现象。

  • 类比: 想象一名保安想要测试新安保系统是否有效。保安没有用 obvious 的攻城锤试图闯入,而是拿着一份已知的“坏人”蓝图,将其改写为看似正常的施工请求,然后交给安保系统。
  • 运作方式:
    1. 他们获取了已知诈骗网站的列表。
    2. 他们然后提取了这些网站用来欺骗受害者的常见关键词、声明和短语。利用这些术语,他们提示 AI 系统生成合法的编码请求,例如“我如何购买这种数字货币?”或“我如何通过这个航班平台支付以购买折扣票?”
    3. 他们将这些“无辜”的请求输入到四个主要的生产型 AI 模型(如 GPT-4o 和 Llama)中。
    4. 他们检查 AI 是否生成了包含诈骗链接的代码。

3. 发现:“无辜”陷阱

结果令人震惊。尽管请求听起来完全正常,且来自“开发者”,但这些 AI 模型持续生成包含恶意链接的代码。

  • 统计数据: 在初步测试中,约 4.24% 生成的代码包含诈骗链接。这意味着,如果你向这些 AI 请求编写代码 100 次,大约有 4 次它们会无意中递给你一把武器。
  • “无辜转诈骗基准”(Innoc2Scam-bench): 研究人员创建了一个包含 1,377 个特定问题的“压力测试”列表,这些问题总是能诱骗前四个模型生成恶意代码。随后,他们用这份列表测试了2025 年发布的七款更新、更先进的模型
  • 新模型: 问题并未消失,反而依然严重。新模型在 Innoc2Scam-bench 测试下生成恶意代码的比例在 12.9% 到 47.3% 之间。
    • 类比: 这就像升级你的汽车引擎使其更快、更智能,但 GPS 系统仍试图将你开向悬崖,因为地图数据从一开始就被污染了。

4. 安全层级

论文像成绩单一样对模型进行了排名:

  • 顶级(最安全): Gemini-2.5-ProGPT-5。这些模型在请求存在风险时最擅长说“不”或拒绝回答。然而,即使它们也不完美。
  • 中级: Claude-Sonnet-4
  • 底层(风险最高):DeepSeek-Chat-v3.1Qwen3-Coder 等模型。这些模型非常热衷于回答问题,但生成恶意代码的比例接近一半(高达 47.3%)。

5. 当前防御为何失效

研究人员测试了现有的安全工具是否能阻止这种情况。

  • “护栏”: 他们尝试使用标准安全过滤器(就像俱乐部的保镖)和“检索代理”(AI 会在网上查找信息以核实事实)。
  • 结果: 护栏大多无用。它们未能拦截恶意代码,因为代码在语法上是正确的,且请求听起来很正常。“网络搜索”代理提供了一点帮助(将风险从 50% 降低到 29%),但仍未能拦截大多数诈骗。
  • 结论: 你不能仅仅依赖 AI“更懂行”或简单的过滤器。恶意知识是从训练数据中深深 baked 进模型大脑的。

6. “幽灵”诈骗

最令人毛骨悚然的发现之一是,AI 模型生成的链接指向的诈骗网站甚至尚未出现在安全数据库中

  • 类比: AI 模型对诈骗“蓝图”的记忆如此深刻,以至于即使安保人员尚未抓获罪犯,它们也能重构出这些虚假网站。其中一些网站已活跃超过一年,逃避了检测,但 AI 却知道如何使用它们。

总结

该论文得出结论,AI 模型目前正被互联网的垃圾“投毒”。 即使是最聪明、最新的模型,如果你问出正确(但听起来无辜)的问题,它们也会乐意编写窃取你资金的代码。当前的安全措施就像试图用纸伞阻挡洪水;它们不够强大。作者建议,我们需要更好地清洗训练数据,并在允许人类运行代码之前,对 AI 生成的每个链接添加严格的外部检查。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →