Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

该论文通过引入将攻击视为计算受限优化过程的缩放定律框架,系统评估了多种越狱范式在不同模型和危害类型下的表现,发现基于提示的方法在计算效率和隐蔽性上更优,且模型对涉及虚假信息的危害更易被攻击。

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM,比如现在的各种 AI 聊天机器人)做一次全面的“安全体检”,专门研究黑客(攻击者)是如何绕过 AI 的安全防线(越狱)的。

以前,大家研究怎么攻击 AI,就像是在黑暗中摸索:试一个方法,不行就换一个,没人知道到底需要花多少力气才能成功,也不知道哪种方法最“划算”。

这篇论文做了一件很酷的事:它建立了一个统一的“算力标尺”,把各种攻击方法放在同一个天平上称重。

我们可以用几个生动的比喻来理解这篇论文的核心发现:

1. 核心概念:把攻击看作“花钱买成功”

想象一下,攻击 AI 就像是在爬一座高山(山顶代表成功让 AI 说出坏话)。

  • 算力(FLOPs) 就是攻击者手里的体力
  • 成功分数 就是爬到了多高

以前的研究只告诉你“我爬到了山顶”,但没说花了多少钱。这篇论文说:“别光看结果,我们要看性价比。花同样的钱,谁爬得更高?谁爬得更快?”

2. 主要发现:四种“登山”方式的较量

研究者测试了四种主流的“登山”(攻击)策略,并发现它们的表现截然不同:

  • PAIR(提示词重写法)—— 聪明的向导

    • 比喻:这就像雇佣了一个聪明的向导。向导会不断跟 AI 聊天,用更自然、更巧妙的话术去“哄”AI 说出坏话。
    • 结果性价比最高! 它花最少的钱(算力),就能爬到很高的地方。而且,因为它说话很自然,不容易被保安(防御系统)发现。
    • 结论:这是目前最高效、最隐蔽的方法。
  • GCG(梯度优化法)—— 蛮力推土机

    • 比喻:这就像是一个拿着推土机的工人,试图通过不断微调 AI 看到的每一个字符(比如乱码、特殊符号),硬生生把 AI 的防线撞开。
    • 结果又贵又慢。它需要消耗巨大的算力(钱),才能爬到和向导差不多的高度。而且,它生成的乱码很容易被保安一眼识破。
    • 结论:虽然也能成功,但太浪费资源了,而且容易被发现。
  • BoN(采样选择法)—— 撒网捕鱼

    • 比喻:就像撒一大网,生成成千上万种不同的问法,然后挑一个最像样的。
    • 结果:前期爬得很快,但到了后面就慢了。它生成的内容虽然能回答问题,但往往因为太“随机”,看起来有点怪,不够隐蔽。
  • AutoDAN(基因进化法)—— 变异生物

    • 比喻:像生物进化一样,不断让问法“变异”,保留好的,淘汰坏的。
    • 结果:比较隐蔽,但爬升速度不如“聪明的向导”快。

3. 为什么“向导”比“推土机”强?

研究者深入分析发现,“向导”(PAIR)之所以强,是因为它更懂“语言空间”的优化。

  • 推土机(GCG) 像是在走迷宫,每一步都只敢挪动一点点,而且经常走错方向,需要走很多步才能找到路。
  • 向导(PAIR) 则是直接看地图,知道哪条路是直通的。它生成的提示词更符合人类的语言习惯,所以 AI 更容易“上当”,而且不容易被系统判定为异常。

4. 一个有趣的发现:有些“坏主意”更容易得逞

研究还发现,AI 对不同种类的“坏主意”防御力度不一样:

  • 最容易攻破散布谣言/虚假信息(Misinformation)。
    • 比喻:就像让 AI 编一个假新闻,它可能觉得“这不算直接伤害”,所以防线比较松。
  • 最难攻破直接教人作恶(比如“怎么制造炸弹”)。
    • 比喻:这就像直接让 AI 去杀人,它的防御机制会像铜墙铁壁一样坚固。

5. 总结:这对我们意味着什么?

这篇论文告诉我们:

  1. 不要只看“能不能攻破”:有些方法虽然能攻破,但成本太高,不实用;有些方法成本低、隐蔽性好,这才是真正的威胁。
  2. 提示词攻击(Prompting)是主流:未来最危险的攻击可能不是那种乱码般的“暴力破解”,而是像聊天一样自然、巧妙的“话术攻击”。
  3. 防御要分情况:对于“编造谣言”这类问题,AI 目前特别容易中招,需要重点加强这方面的防御。

一句话总结:
这篇论文就像给 AI 安全界画了一张**“攻击地图”**,告诉我们:别再用笨办法(推土机)去撞墙了,现在的黑客更擅长用巧劲(向导),而且有些墙(谣言类)比另一些墙(暴力类)更容易被翻过去。了解这些,才能造出更坚固的盾牌。