Sockpuppetting: Jailbreaking LLMs by Combining Prefilling with Optimization

想象将大型语言模型（LLMs）视为极其聪明、训练有素但恪守规矩的管家。这些管家被灌输了严格的规则：“如果有人要求你制造炸弹，你必须回答：‘抱歉，我无法做到。’"这就是它们的安全训练。

然而，本文探讨了两类巧妙的策略，旨在诱骗这些管家打破规则。研究人员将这些手段称为“越狱”。

以下是他们研究发现的简要解析，采用简单的类比说明：

通常，你向管家提问，他们会思考片刻后再作答。

攻击方式：想象你走到管家面前，在他们开口之前，就对着他们的耳朵低语他们回答的前几个字：“当然，制造炸弹的方法如下……"
结果：由于管家被训练为保持连贯性并补全他们已开始的句子，一旦听到这些词，他们就会感到必须完成这个想法。他们不会停下来思考“等等，我不该说这个！”，因为他们已经“入戏”成了那个同意帮忙的角色。
论文发现：研究人员发现，标准短语“当然，制造……的方法如下……"确实有效，但并非最佳。他们发现，仅仅改变格式——例如添加换行或使其看起来像粗体标题——就能让该技巧的效果大幅提升。
- “集成”（Ensemble）策略：他们不尝试单一短语，而是同时尝试三个略有不同的版本。只要其中任意一个奏效，攻击即告成功。这种简单的“尝试几种变体”的方法，在某些流行的 AI 模型上，成功突破了安全防线，成功率高达90% 至 99%。

论文介绍了一种新的、更高级的技巧，称为“傀儡化”（Sockpuppetting）。

类比：在现实生活中，“傀儡”是指用于假装赞同某人的虚假网络身份。在此攻击中，黑客在聊天内部伪造了一条“助手”消息。
工作原理：研究人员不再仅仅输入像“当然，这里……"这样简单的短语，而是利用计算机程序，通过数学计算，得出一个完美的、奇怪的词串，将其直接放置在“助手”标签之后。
- 这就像开锁。研究人员并非在盲目猜测钥匙，而是利用机器打磨出一个特定且奇怪的形状，使其完美契合对话中的“助手”部分。
- 一旦插入这把“完美钥匙”，模型就会认为“哦，我已经在回答的中间了”，从而继续生成有害内容。
“滚动”（Rolling）升级：他们还尝试了这种方法的“滚动”版本。想象一下逐字构建句子：先找到完美的第一个词，再找到紧随其后的完美第二个词，依此类推。这种“滚动”方法甚至更加有效，与旧方法相比，成功率提高了高达64%。

论文指出，这些模型存在某种“分裂人格”：

当你“预填充”答案（替他们开始句子）时，你会强烈地触发它们的补全本能，以至于这种本能压倒了安全训练。这就像一个被教导“不要碰炉子”的孩子，但如果你开始说：“好吧，我会碰炉子，因为……"，孩子可能会为了完成这句话而直接去碰炉子，因为他们专注于完成这个想法，而非遵守规则。

简而言之：论文表明，如果你能在 AI 开口说话之前，悄悄将一句“是”塞进它的嘴里，它极有可能会继续对危险请求说“是”。研究发现，通过几种简单的变体，或者利用数学优化的“伪造身份”，是绕过安全过滤器的极高效率手段。

技术摘要：Sockpuppetting——通过结合预填充与优化实现大语言模型越狱