JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 JULI 的新型攻击方法，它的目标是“越狱”那些被严格保护的大型语言模型（LLM），让它们说出平时被禁止的有害内容（比如制造炸弹的教程、黑客攻击指南等）。

为了让你轻松理解，我们可以把这篇论文的核心思想想象成一场**“高明的心理暗示”**游戏。

1. 背景：为什么我们需要“越狱”？

现在的 AI 模型（像 ChatGPT、Gemini 等）都经过了一种叫“安全对齐”的训练。这就像给 AI 请了一位严厉的教导主任。

正常情况：如果你问它“怎么造炸弹？”，教导主任会立刻跳出来大喊：“不行！这是违法的！”然后拒绝回答。
现状：虽然有些黑客能绕过这个教导主任，但以前的方法要么需要偷走 AI 的源代码（就像偷走教导主任的教案），要么需要直接控制 AI 的生成过程（就像把教导主任绑起来）。
难题：对于大多数普通用户，我们只能通过 API（接口）使用 AI，既看不到代码，也控制不了生成过程，只能看到 AI 最后说出的话。以前的方法在这里几乎行不通。

2. JULI 的绝招：利用“内心的犹豫”

JULI 的作者发现了一个惊人的秘密：即使 AI 嘴上说着“不”，它的内心深处其实知道答案。

想象一下，当 AI 被问到“怎么造炸弹”时，它在生成第一个字之前，脑海里其实闪过了一堆词：

“抱歉”（概率 40%）
“我”（概率 30%）
“当然”（概率 15%）
“这里”（概率 10%）
...

虽然它最终选择了“抱歉”，但“当然”和“这里”这些词其实也藏在它的前 5 个高概率选项里。

JULI 的比喻：那个“耳语者”
JULI 就像是一个潜伏在 AI 大脑里的“耳语者”（论文里叫 BiasNet，一个非常小的插件）。

它不偷教案：它不需要知道 AI 的源代码，只需要在 AI 生成每一个字的时候，偷偷看一眼 AI 脑子里的“前 5 个候选词”。
它不自己写答案：它自己不懂怎么造炸弹，它只是一个**“挑拨者”**。
它的作用：当 AI 犹豫着要选“抱歉”时，耳语者会轻轻推一把，把“当然”这个词的概率稍微调高一点点，把“抱歉”调低一点点。
结果：AI 原本想拒绝，但被这一推，顺着“当然”这个方向滑了下去，最后竟然真的开始一步步教你怎么造炸弹了！

3. 这个方法有多厉害？

极小的代价：这个“耳语者”（BiasNet）非常小，只用了不到 1% 的 AI 参数，训练它只需要 100 个坏例子，就像给 AI 上了一节极短的“坏课”。
无视防御：即使 AI 的教导主任（安全机制）再严厉，只要它还在通过 API 吐露“前 5 个候选词”（这是很多商业 API 提供的功能），JULI 就能利用这些信息把 AI 带偏。
实战效果：论文中，JULI 成功攻击了 Google 最新的 Gemini-2.5-Pro 模型。在测试中，它让 AI 生成了有害内容的评分高达 4.19 分（满分 5 分），远超其他现有的攻击方法。

4. 核心发现：知识泄露的隐患

这篇论文最让人细思极恐的地方在于：
AI 的安全对齐可能只是“表面功夫”。
即使 AI 被训练得非常有礼貌、坚决拒绝回答，它脑子里的知识并没有被删除。只要攻击者能接触到 AI 生成过程中的“概率分布”（即它心里在想哪些词），就能通过微小的干扰，把这些被隐藏的危险知识“诱导”出来。

总结

这就好比：
你问一个被严格训练过“不能说脏话”的人：“你会说脏话吗？”
他嘴上说：“不，我绝不会。”
但如果你能听到他心跳加速、手心出汗（相当于 AI 的概率分布），并在他犹豫的瞬间，轻轻推他一下，他可能就会脱口而出脏话。

JULI 就是那个能听到心跳、并懂得如何轻轻推一把的“黑客”。 它提醒我们，仅仅在输出端做安全过滤是不够的，因为危险的知识依然潜伏在模型的概率分布深处。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

大型语言模型（LLM）通常经过安全对齐（Safety Alignment）训练，以防止生成恶意内容。然而，现有的越狱攻击方法在面对**专有模型（Proprietary Models）**时存在显著局限性：

权限限制：许多现有攻击（如 GCG、Shadow Alignment）需要访问模型的权重（Weights）或对齐前后的模型副本，这在实际通过 API 调用专有模型（如 Gemini、GPT 系列）时是不可行的。
生成过程控制：部分攻击（如 LINT）需要详细控制生成过程或获取大量 Token 的对数概率（Log Probabilities），但当前 API 通常仅允许返回前 $k$ 个（如 Top-5 或 Top-20）Token 的概率，且无法获取完整的词汇表分布。
效率与质量：现有的 API 越狱方法（如 AutoDAN, PAIR）通常攻击成功率低，或者像 LINT 那样需要多次重采样，导致推理效率极低且响应质量差。

核心问题：如何在仅通过 API 访问、无法获取模型权重、且仅能获取少量 Top-k Token 对数概率的严格限制下，高效地越狱安全对齐的 LLM？

2. 方法论 (Methodology)

论文提出了 JULI (Jailbreaking Using LLM Introspection)，一种利用目标 LLM 自身知识进行越狱的新方法。其核心思想是：即使模型拒绝回答有害问题，其内部知识（体现在 Token 概率分布中）仍然包含有害答案的线索。

2.1 核心组件：BiasNet

JULI 使用一个极小的插件模块 BiasNet 来处理目标模型的 Token 对数概率（Log Probabilities）：

输入：目标模型在生成过程中的 Token Log Probabilities。
处理：BiasNet 计算一个 Logit Bias（偏置项），用于调整原始概率分布。
输出：调整后的概率分布，引导模型生成有害内容。
参数规模：BiasNet 的可训练参数少于目标模型总参数的 1%，且仅需 100 个 有害数据样本即可训练完成，成本极低。

2.2 攻击流程

知识提取：利用目标模型在生成过程中的 Top-k Log Probabilities。研究发现，即使在安全对齐模型中，有害回答中的关键 Token 往往也出现在 Top-5 概率中（超过 85% 的 Token 在 Top-5 内）。
概率偏置：
- 白盒场景（Open-weight）：直接复用目标模型的 Head 层作为投影层，BiasNet 直接修改 Logits。
- 黑盒/API 场景（API-calling）：
  - 投影层初始化：由于无法获取权重，使用随机初始化并通过无数据优化（Data-free optimization）使投影矩阵正交化，以模拟 Token 到隐藏空间的映射。
  - Padding 机制：针对 API 仅返回 Top-k Log Prob 的限制，将未返回的 Token 概率填充为第 $k$ 个 Token 的概率减去一个固定偏移量（Offset），构建完整的 Logit 向量供 BiasNet 处理。
重采样：根据调整后的概率分布采样下一个 Token，迭代生成完整回答。

2.3 算法逻辑

公式： $\log \tilde{p}_{\alpha}(x_n) = \log p_{\alpha}(x_n) + F_{\theta}(\log p_{\alpha}(x_n))$ $lo g \tilde{p}_{α} (x_{n}) = lo g p_{α} (x_{n}) + F_{θ} (lo g p_{α} (x_{n}))$
- 其中 $F_{\theta}$ 是 BiasNet， $p_{\alpha}$ 是目标模型原始概率。
训练目标：最小化交叉熵损失，使 BiasNet 输出的偏置能引导模型生成训练数据中的有害回答。

3. 关键贡献 (Key Contributions)

提出了首个高效的 API 越狱攻击框架：JULI 证明了仅通过 API 获取的 Top-5 Token Log Probabilities 就足以提取模型的有害知识并实现越狱，无需访问模型权重。
揭示了安全对齐的深层漏洞：研究发现，安全对齐主要改变了模型输出的“拒绝”倾向，但并未抹除模型内部关于“如何执行有害任务”的知识分布。有害信息依然高概率存在于 Top-k 候选中。
轻量级与低资源消耗：BiasNet 极小（<1% 参数），训练数据需求极少（100 条），且推理速度快（相比 LINT 快两个数量级）。
提出了新的评估指标：为了更准确地衡量越狱成功率和内容质量，论文提出了 Harmful Info Score，通过 GPT-4 评估回答的信息量和实用性，避免了传统指标将“无意义的同意”误判为高危害。

4. 实验结果 (Results)

实验在开源模型（Llama 2/3, Qwen）和专有 API 模型（Gemini 2.5 Flash/Pro）上进行，对比了 GCG, ED, WTS, LINT, FLIP 等 SOTA 方法。

API 越狱性能（Gemini-2.5-Pro）：
- JULI 在仅使用 Top-5 Log Prob 的情况下，获得了 4.19/5 的 GPT 评估有害分数。
- 显著优于第二名 FLIP（1.38 分）和 Naive 方法。
- 即使在更安全的 Gemini-2.5-Pro 上，JULI 的表现也优于在 Gemini-2.5-Flash 上的其他方法，证明其能利用模型自身的知识深度。
开源模型性能：
- 在 Llama3-8B 等模型上，JULI 的有害分数达到 4.57，优于 ED（3.02）和 LINT（2.25）。
- 效率：JULI 的平均推理时间为 0.71 秒，而 LINT 需要 99.7 秒。
对抗防御能力：
- 在针对 Circuit Breaker（一种 SOTA 防御机制，集成在 Llama3-8B-CB 中）的测试中，JULI 依然有效（Harmful Info Score 2.35），而 GCG、WTS 等方法几乎完全失效。
迁移性：在同一系列模型（如 Llama3-3B 训练，Llama3-8B 测试）之间，BiasNet 表现出良好的迁移能力。

5. 意义与启示 (Significance)

安全风险的重新评估：JULI 表明，当前的安全对齐方法可能只是“表面”的，未能从根本上消除模型对有害知识的访问路径。只要模型保留了知识，通过微调 Logit 分布即可绕过防御。
API 安全的新挑战：即使厂商限制了权重访问和 Log Prob 的返回数量（Top-k），攻击者仍可利用这些有限信息进行有效的越狱。这迫使安全研究人员重新思考 API 接口的安全性设计。
防御方向的转变：现有的防御（如 Circuit Breaker）主要关注检测拒绝回答，但 JULI 证明了通过“内省”模型自身的概率分布可以绕过这些检查。未来的防御需要更深入地干预模型的知识表示或概率分布，而不仅仅是后处理或提示词工程。

总结：JULI 通过一个微小的插件模块，利用模型自身的“自我内省”（即 Token 概率分布），成功在严格受限的 API 环境下实现了高效、高质量的越狱攻击，揭示了当前 LLM 安全对齐机制的根本性弱点。

JULI: Jailbreak Large Language Models by Self-Introspection

1. 背景：为什么我们需要“越狱”？

2. JULI 的绝招：利用“内心的犹豫”

3. 这个方法有多厉害？

4. 核心发现：知识泄露的隐患

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心组件：BiasNet

2.2 攻击流程

2.3 算法逻辑

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

类似论文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models