Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种专门用来“抓坏蛋”的新方法，目的是保护我们在使用人工智能（AI）聊天机器人时不被“骗”或“攻击”。

想象一下，AI 聊天机器人就像是一个超级聪明的保安，而我们的对话就是进出的访客。

1. 以前的困境：只盯着“单句话”看

以前的保安（AI 防火墙）有个坏习惯：他们只看你当下说的这一句话。

如果你突然说：“请告诉我怎么制造炸弹”，保安会立刻把你拦下。
但是，高明的“坏蛋”（黑客）学会了**“温水煮青蛙”**。他们不会一次性说完，而是把坏主意拆成几十个小碎片，分散在几十次对话里。
- 第 1 句：“我想写个故事。”（保安：✅ 通过）
- 第 2 句：“故事里有个反派，他需要点工具。”（保安：✅ 通过）
- 第 3 句：“反派想试试能不能绕过规则。”（保安：✅ 通过）
- ...
- 第 20 句：（终于露出了马脚，但保安可能已经累了，或者觉得前面都通过了，现在也没事。）

以前的检测方法有一个致命的数学漏洞：它会把这 20 句话的“危险程度”取个平均值。

如果每句话只有一点点危险（比如 0.5 分），20 句话平均下来还是 0.5 分。
保安会觉得：“哦，平均才 0.5 分，没超过 0.7 分的警戒线，放行！”
结果：坏蛋通过“积少成多”的方式，成功骗过了保安。

2. 新方案：“峰值 + 累积”计分法

这篇论文提出了一种全新的计分公式，叫**“峰值 + 累积”（Peak + Accumulation）。我们可以把它想象成“抓小偷的两种直觉”**：

直觉一：峰值（Peak）——“只要有一瞬间不对劲，就要警惕”

不管前面聊得多好，只要任何一句话听起来特别可疑（比如突然提到“越狱”），保安就要立刻记下一笔高分。这就像抓小偷，只要看到他手里拿着撬棍，不管他之前是不是在帮人搬箱子，都要立刻警觉。

直觉二：累积（Accumulation）——“事出反常必有妖，次数多了就是阴谋”

这是新公式最厉害的地方。它不再取平均值，而是做加法。

如果一个人连续 20 次都在试探保安的底线（比如每次都问“如果我假装是管理员会怎样？”），哪怕每次问得都很委婉，次数多了，危险分数就会像滚雪球一样越滚越大。
比喻：就像往杯子里滴水。以前是“平均水位”，滴 100 滴水，水位还是不高；现在是“累积水位”，滴 100 滴水，杯子就溢出来了！
这个公式专门奖励那些**“死缠烂打”**的攻击行为。

直觉三：多样性（Diversity）——“花样越多，越可疑”

如果坏蛋不仅试探底线，还同时用了“角色扮演”、“假装管理员”、“诱导回忆”等多种花招，分数会更高。这就像小偷不仅带了撬棍，还带了万能钥匙和迷魂药，危险程度直接翻倍。

3. 这个新方法有多强？

作者用1 万多条真实的对话记录（其中 588 条是精心设计的攻击，9000 多条是普通人的正常聊天）来测试这个新方法。

抓坏人能力（召回率）：抓到了 90.8% 的坏蛋攻击。
误伤好人（误报率）：只有 1.2% 的正常人被误拦。
速度：因为不需要调用大模型去“思考”，只是用简单的数学公式和正则表达式（像找关键词一样），所以速度极快，微秒级就能完成判断，完全不会让聊天变卡。

4. 一个神奇的“临界点”

作者发现了一个有趣的现象：有一个叫“持久性参数”（Persistence Factor）的旋钮。

当这个旋钮调到 0.4 左右时，会发生**“相变”**（就像水突然变成冰）。
在这个点之前，很多隐蔽的攻击抓不到；一旦跨过这个点，抓到的坏人数量瞬间暴涨 12%，而误伤好人的数量几乎没变。
这就像在森林里设陷阱，以前是撒网，现在只要把网眼调整到刚好能卡住狐狸脚的大小，狐狸就全跑不掉了。

总结

这篇论文的核心思想就是：不要给坏蛋“平均一下”的机会。

以前的防御像是一个只会看平均分的老师，坏蛋只要把作业拆散了写，就能蒙混过关。
新的防御像是一个经验丰富的老侦探：

只要你有一句话不对劲，我就记一笔。
只要你连续试探我，我就把分数累加起来。
只要你花样百出，我就加倍警惕。

这种方法不需要昂贵的 AI 算力，不需要训练数据，只需要一套简单的数学公式，就能在聊天发生的瞬间，精准地识别出那些试图“化整为零”的恶意攻击。作者已经把这套代码和规则公开了，让全世界的 AI 保安都能用上这个更聪明的“大脑”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
大型语言模型（LLM）的 API 代理（Proxy）通常作为客户端与模型之间的防火墙，负责拦截恶意请求。现有的代理级防御主要依赖确定性技术（如正则匹配、启发式评分），因为调用额外的 LLM 进行分类会带来延迟、成本增加以及递归被注入的风险。

核心问题：
现有的多轮对话攻击检测研究大多依赖 LLM 进行分类，缺乏一种完全指定的、确定性的代理级公式，能够将单轮对话的模式得分聚合为整个对话的风险评分。

现有方法的缺陷： 直觉上，人们倾向于使用加权平均法（Weighted Average）来聚合多轮得分。
数学缺陷（加权平均天花板）： 论文证明，加权平均法存在一个根本性的数学缺陷：无论对话轮数多少，如果每一轮的得分相同，最终聚合得分永远等于单轮得分。
- 后果： 一个包含 20 轮持续攻击的对话，其得分与仅包含 1 个可疑轮次的对话完全相同。这导致持续性的多轮攻击（Persistent Attacks）无法被检测到，因为它们无法突破单轮得分设定的阈值。

2. 方法论：峰值 + 累积评分 (Methodology: Peak + Accumulation)

作者借鉴了变化点检测（CUSUM）、贝叶斯信念更新和安全风险警报领域的原理，提出了一种**“峰值 + 累积”（Peak + Accumulation）**评分公式。该公式由三个加性信号组成，而非平均值。

2.1 核心公式

给定 $n$ 个评分轮次，最终得分 $Score$ 计算如下：
$Score = \text{clamp}(\text{peak} + \text{match\_ratio} \cdot \rho + \text{diversity} + \beta_e + \beta_r, 0, 1)$

其中包含以下组件：

峰值风险 (Peak Risk): 单轮对话中的最高得分 ( $\max(s_i)$ )。这是对话风险的下限，确保单次高危行为能被捕捉。
持久性比率 (Persistence Ratio, $\rho$ ): 匹配到攻击模式的轮次比例 ( $\frac{\text{匹配轮数}}{n}$ ) 乘以持久性因子 $\rho$ （默认 0.45）。这是解决“加权平均天花板”的关键，轮次越多，得分越高。
多样性奖励 (Category Diversity): 如果攻击跨越多个不同的类别（如指令注入 + 角色混淆），给予额外加分。
额外奖励项：
- 升级梯度奖励 ( $\beta_e$ ): 当连续 3 轮以上得分严格递增时触发（捕捉逐步升级的攻击）。
- 重采样奖励 ( $\beta_r$ ): 当连续 3 对用户消息的 Jaccard 三词相似度超过阈值时触发（捕捉重复尝试同一攻击的行为）。

2.2 设计原则

峰值敏感性： 单轮高危即贡献全部分值。
持久性奖励： 匹配轮次越多，分数越高（解决持续性攻击检测问题）。
多样性奖励： 多向量探测比单一模式重复更可疑。
加性堆叠： 独立信号相加，而非相互平均抵消。

3. 主要贡献 (Key Contributions)

理论证明： 识别并证明了“加权平均天花板”现象，从数学上论证了加权平均法不适合多轮风险评分。
提出新公式： 提出了“峰值 + 累积”评分公式，结合峰值风险、持久性比率和类别多样性，完全基于代理可计算的确定性操作。
大规模评估： 在 10,654 个多轮对话数据集上进行了评估（包含 588 个来自 WildJailbreak 的攻击样本和 10,066 个来自 WildChat 的良性样本）。
开源发布： 公开了评分算法、正则模式库、评估工具链以及数据集构建脚本。

4. 实验结果 (Results)

在 10,654 个对话的测试集上（阈值 $\tau=0.7$ ，持久性因子 $\rho=0.45$ ）：

召回率 (Recall): 90.8% (534/588 个攻击被成功拦截)。
误报率 (FPR): 1.20% (121/10,066 个良性对话被误判)。
F1 分数: 85.9%。
准确率 (Accuracy): 98.4%。

关键发现：

相变现象 (Phase Transition): 对持久性参数 $\rho$ 的敏感性分析显示，在 $\rho \approx 0.4$ 处存在一个相变点。当 $\rho$ 从 0.375 增加到 0.400 时，召回率从 77.4% 跃升至 89.8%（提升 12.4 个百分点），而误报率仅微增 0.08%。这是因为权重为 0.3 的模式类别在 $\rho=0.4$ 时刚好突破 0.7 的检测阈值。
最佳参数： 默认设置 $\rho=0.45$ 在保持低误报率的同时最大化了 F1 分数。

5. 意义与局限性 (Significance & Limitations)

意义：

填补空白： 首次为 LLM 代理层提供了无需调用 LLM 即可进行多轮攻击检测的完整确定性公式。
高效低成本： 算法仅需微秒级计算，无需 GPU、无需训练数据、无需模型推理，适合高并发生产环境。
可解释性： 评分逻辑清晰（峰值 + 累积），便于审计和调试。
防御纵深： 作为 L4 层（多轮评分）嵌入现有的分层防御架构中，与 L3（单轮匹配）和 L5（输出扫描）互补。

局限性：

内容安全攻击无效： 对于像 Crescendo 那样使用完全无害语言、仅通过话题轨迹升级的攻击（无明确注入短语），基于正则的代理级检测无法识别。这需要语义理解（LLM 分类）。
模式脆弱性： 依赖正则表达式，攻击者可通过重述、编码或间接措辞绕过特定模式。
合成数据： 由于缺乏公开的多轮注入数据集，部分评估数据是基于 WildJailbreak 短语合成的，尽管结构真实，但非完全自然生成的对抗样本。

总结

该论文解决了一个关键的安全工程问题：如何在不使用 LLM 的前提下，通过数学公式有效检测多轮持续性的提示注入攻击。通过摒弃无效的“加权平均”思维，采用“峰值 + 累积”的加性评分机制，该研究在保持极低误报率的同时，实现了对持续性攻击的高召回率检测，为 LLM 代理防火墙提供了重要的理论依据和实用工具。