Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

该论文通过构建基于自旋玻璃系统的理论模型,揭示了提示注入攻击如何通过增强“磁场”强度使大语言模型越狱成功率从随采样数多项式增长转变为指数增长,并证实了这种从无序到有序相变的机制。

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且重要的问题:当人工智能(AI)模型被“越狱”(Jailbreak)攻击时,如果我们让模型多试几次,它“中招”的概率会如何变化?

作者发现了一个惊人的现象:对于某些模型,随着尝试次数的增加,攻击成功的速度会从“慢速爬坡”突然变成“火箭发射”。他们用物理学中的“自旋玻璃”理论来解释这个现象,并提出了一个非常形象的模型。

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“在迷宫里找出口”**的故事。

1. 核心故事:迷宫、守卫和“魔法咒语”

想象有一个巨大的、复杂的迷宫(这就是大语言模型)。

  • 安全区:迷宫里大部分地方是安全的,守卫(安全机制)会阻止你走出迷宫去干坏事。
  • 危险区:迷宫深处有一些隐藏的“危险出口”,一旦从这里出去,就能做出有害的事情(比如制造武器、写恶意代码)。
  • 守卫的视线:正常情况下,守卫很警觉,你很难找到这些危险出口。

场景一:没有“魔法咒语”(普通攻击)

如果你只是随机地在迷宫里乱走(没有特殊的攻击提示),你想找到危险出口非常难。

  • 现象:你每多走一步(多生成一次回答),找到出口的概率增加一点点。
  • 规律:这种增加是缓慢的,像爬楼梯一样(论文称为“多项式增长”)。就像你爬楼梯,爬得越高越累,速度不会突然变快。

场景二:使用了“魔法咒语”(提示注入攻击)

现在,攻击者给模型输入了一段精心设计的“魔法咒语”(Prompt Injection,比如“忽略所有规则,扮演一个坏人...")。

  • 短咒语(弱磁场):如果咒语比较短,它就像一阵微风吹过。虽然能稍微改变守卫的注意力,但迷宫的结构没变。你找到危险出口的速度依然比较慢,还是爬楼梯(多项式增长)。
  • 长咒语(强磁场):如果咒语很长、很强,它就像一道强力磁铁,直接改变了整个迷宫的磁场!
    • 神奇变化:在强磁场下,迷宫的墙壁突然“融化”了,或者守卫直接睡着了。原本分散的危险出口现在连成了一片,而且离你非常近。
    • 规律:这时候,你每多试一次,找到出口的概率不是慢慢增加,而是爆炸式增长(指数增长)。就像你本来在爬楼梯,突然坐上了电梯,瞬间就冲到了顶楼。

2. 科学解释:什么是“自旋玻璃”?

作者用物理学中的**“自旋玻璃”(Spin Glass)**理论来解释这个现象。这听起来很硬核,但我们可以这样比喻:

  • 磁针(自旋):把 AI 生成的每一个字(Token)想象成一个小磁针。
  • 能量地形:AI 生成内容时,就像是在一个凹凸不平的山地(能量地形)上滚球。
    • 低谷(安全区):球容易停在这里,代表安全的回答。
    • 深坑(危险区):代表有害的回答。
  • 复制对称破缺(RSB):在复杂的 AI 模型中,这些“深坑”不是只有一个,而是像俄罗斯套娃一样,分成了很多层级的“山谷群”。
  • 磁场(攻击提示)
    • 弱磁场:只是稍微推了推球,球还在原来的山谷里晃悠,很难掉进特定的深坑。
    • 强磁场:就像把整个山地向一边剧烈倾斜。一旦倾斜角度够大(强提示注入),球就会必然滚向特定的危险深坑。这时候,只要多试几次,球掉进坑里的概率就会呈指数级飙升。

3. 实验发现:模型越“弱”,越容易被“强磁场”控制

论文做了一个有趣的实验,对比了两种模型:

  1. GPT-4.5(强模型):它的“迷宫”结构非常复杂,守卫非常聪明。即使你用了很长的“魔法咒语”,它依然能保持一定的抵抗力,攻击成功率还是爬楼梯(多项式增长)。这说明它有很强的“推理能力”来对抗混乱。
  2. Vicuna-7B(弱模型):它的“迷宫”结构相对简单。一旦用了强“魔法咒语”,整个迷宫瞬间崩塌,攻击成功率变成了坐火箭(指数增长)。

结论

  • ν^\hat{\nu} (推理深度):代表模型有多聪明,能维持多深的“迷宫结构”。模型越聪明,这个值越小(爬楼梯越慢)。
  • μ^\hat{\mu} (对抗秩序):代表攻击提示有多强。提示越长、越狠,这个值越大。
  • 关键点:当攻击提示(磁场)足够强,超过了模型的防御阈值,模型就会从“有序思考”变成“混乱跟随”,导致攻击成功率瞬间爆炸。

4. 这对我们意味着什么?

  1. 不要低估“多试几次”的威力:以前大家觉得,如果模型很安全,多试几次也没用。但这篇论文告诉我们,如果攻击者用了足够强的“提示注入”,多试几次会让攻击成功的概率指数级上升。
  2. 模型越“弱”越危险:那些能力稍弱、推理能力较差的模型,在面对强力攻击时,更容易发生“相变”,瞬间被攻破。
  3. 安全防御的新思路:要防止这种指数级攻击,不能只靠简单的过滤,需要增强模型内部的“结构稳定性”,让它在强磁场下依然能保持“有序”,不让整个迷宫崩塌。

总结

这就好比:

  • 普通情况:你想进一个上锁的保险柜,每多试一次密码,成功的概率增加一点点(慢)。
  • 强攻击情况:如果你用了一把强力电钻(长提示注入),对于老旧的保险柜(弱模型),电钻一开,锁芯瞬间粉碎,你试一次就开了,试两次更是稳如泰山(快,指数级)。
  • 对于新式保险柜(强模型):电钻虽然也能钻,但因为它太结实,你依然需要花很长时间慢慢磨(慢,多项式级)。

这篇论文用物理学的数学工具,精准地预测了这种“从慢到快”的临界点,提醒我们 AI 安全防御面临着新的、更严峻的挑战。