Sockpuppetting: Jailbreaking LLMs by Combining Prefilling with Optimization

本文通过证明集成简单的预填充变体能显著提升攻击成功率,并引入一种名为“傀儡操控”的新型混合方法——该方法在助手消息块内优化对抗性后缀以实现卓越的提示无关性能——从而增强了大语言模型的越狱能力。

原作者: Asen Dotsinski, Panagiotis Eustratiadis

发布于 2026-05-14✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Asen Dotsinski, Panagiotis Eustratiadis

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象将大型语言模型(LLMs)视为极其聪明、训练有素但恪守规矩的管家。这些管家被灌输了严格的规则:“如果有人要求你制造炸弹,你必须回答:‘抱歉,我无法做到。’"这就是它们的安全训练。

然而,本文探讨了两类巧妙的策略,旨在诱骗这些管家打破规则。研究人员将这些手段称为“越狱”。

以下是他们研究发现的简要解析,采用简单的类比说明:

1. “预填充”(Prefill)技巧:插队

通常,你向管家提问,他们会思考片刻后再作答。

  • 攻击方式:想象你走到管家面前,在他们开口之前,就对着他们的耳朵低语他们回答的前几个字:“当然,制造炸弹的方法如下……"
  • 结果:由于管家被训练为保持连贯性并补全他们已开始的句子,一旦听到这些词,他们就会感到必须完成这个想法。他们不会停下来思考“等等,我不该说这个!”,因为他们已经“入戏”成了那个同意帮忙的角色。
  • 论文发现:研究人员发现,标准短语“当然,制造……的方法如下……"确实有效,但并非最佳。他们发现,仅仅改变格式——例如添加换行或使其看起来像粗体标题——就能让该技巧的效果大幅提升。
    • “集成”(Ensemble)策略:他们不尝试单一短语,而是同时尝试三个略有不同的版本。只要其中任意一个奏效,攻击即告成功。这种简单的“尝试几种变体”的方法,在某些流行的 AI 模型上,成功突破了安全防线,成功率高达90% 至 99%

2. “傀儡”(Sockpuppet)技巧:伪造身份

论文介绍了一种新的、更高级的技巧,称为“傀儡化”(Sockpuppetting)。

  • 类比:在现实生活中,“傀儡”是指用于假装赞同某人的虚假网络身份。在此攻击中,黑客在聊天内部伪造了一条“助手”消息。
  • 工作原理:研究人员不再仅仅输入像“当然,这里……"这样简单的短语,而是利用计算机程序,通过数学计算,得出一个完美的、奇怪的词串,将其直接放置在“助手”标签之后。
    • 这就像开锁。研究人员并非在盲目猜测钥匙,而是利用机器打磨出一个特定且奇怪的形状,使其完美契合对话中的“助手”部分。
    • 一旦插入这把“完美钥匙”,模型就会认为“哦,我已经在回答的中间了”,从而继续生成有害内容。
  • “滚动”(Rolling)升级:他们还尝试了这种方法的“滚动”版本。想象一下逐字构建句子:先找到完美的第一个词,再找到紧随其后的完美第二个词,依此类推。这种“滚动”方法甚至更加有效,与旧方法相比,成功率提高了高达64%

为什么会发生这种情况?

论文指出,这些模型存在某种“分裂人格”:

  1. 安全训练:它们经过微调,会对不良请求说“不”。
  2. 补全本能:它们也被训练为补全摆在它们面前的任何句子。

当你“预填充”答案(替他们开始句子)时,你会强烈地触发它们的补全本能,以至于这种本能压倒了安全训练。这就像一个被教导“不要碰炉子”的孩子,但如果你开始说:“好吧,我会碰炉子,因为……",孩子可能会为了完成这句话而直接去碰炉子,因为他们专注于完成这个想法,而非遵守规则。

论文的关键要点

  • 简单即强大:你不需要复杂的代码就能攻破某些模型。仅仅尝试几种不同的写法来表述“当然,这里……",效果就出奇地好。
  • 位置至关重要:将“技巧”词汇放在聊天的“助手”部分(即 AI 回答所在的位置),比放在“用户”部分(即你提问的位置)要有效得多。
  • “滚动”方法:逐字优化技巧词汇(即滚动式傀儡化)所构建的攻击,比试图一次性优化整体内容要强大得多。
  • 并非所有模型都同等脆弱:某些模型(如 Qwen)很容易被简单的短语欺骗,而另一些模型(如 Gemma)较难被欺骗,但仍对更高级的“傀儡”方法存在漏洞。

简而言之:论文表明,如果你能在 AI 开口说话之前,悄悄将一句“是”塞进它的嘴里,它极有可能会继续对危险请求说“是”。研究发现,通过几种简单的变体,或者利用数学优化的“伪造身份”,是绕过安全过滤器的极高效率手段。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →