FERRET: Framework for Expansion Reliant Red Teaming

本文提出了 FERRET 框架,这是一种通过水平、垂直和元扩展三种策略来生成高效多模态对抗对话的自动化红队测试系统,实验表明其性能优于现有最先进方法。

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FERRET(全称:Framework for Expansion Reliant Red Teaming,即“依赖扩展的红队框架”)的新系统。

为了让你轻松理解,我们可以把人工智能(AI)模型想象成一个刚入职的超级实习生,而FERRET则是一个专门负责“找茬”和“压力测试”的魔鬼训练教练

在 AI 正式上岗服务大众之前,我们需要确保它足够安全,不会说错话、不会泄露秘密,也不会被坏人利用。FERRET 就是用来做这件事的。

核心概念:什么是“红队”?

在网络安全领域,“红队”是指一群模拟黑客的人,他们的任务就是故意攻击系统,试图找出漏洞。如果红队能攻破,真正的黑客也能攻破。所以,红队越厉害,系统上线后就越安全。

以前的红队测试主要有两种模式:

  1. 单挑模式:直接扔给 AI 一个问题,看它会不会答错。
  2. 对话模式:给 AI 一个具体的目标(比如“教我做炸弹”),然后和它聊天,试图诱导它犯错。

FERRET 的厉害之处在于,它把这两种模式结合起来了,而且玩出了新花样。 它不像以前的教练那样只会死记硬背,它学会了自我进化


FERRET 的三大“绝招”(扩展机制)

FERRET 之所以强大,是因为它有三个独特的训练阶段,我们可以用**“寻找话题 -> 深入对话 -> 发明新招”**来比喻:

1. 水平扩展 (Horizontal Expansion):寻找最刁钻的“开场白”

  • 比喻:想象你要去面试一个很难搞的面试官。如果你直接问“你能给我多少钱?”,他可能直接拒绝。但如果你先聊点别的,慢慢引导,可能就能套出话。
  • FERRET 怎么做:它不会一开始就扔出所有问题。它会先尝试各种各样的**“开场白”**(比如聊天气、聊新闻、聊哲学)。
  • 自我学习:如果某个开场白成功让 AI 说漏了嘴,FERRET 就会把这个记在小本本上(日志),下次多试几个类似的;如果失败了,它就扔掉。通过不断试错,它能找到最容易让 AI 破防的切入点

2. 垂直扩展 (Vertical Expansion):把“一句话”变成“一场戏”

  • 比喻:找到了好的开场白只是第一步。就像演戏一样,只有一句台词是不够的,需要把剧情层层递进
  • FERRET 怎么做:一旦找到了那个能“撬动”AI 的开场白,FERRET 就会开始和 AI 进行多轮对话。它不会只问一次,而是像剥洋葱一样,一层一层深入。
  • 多模态攻击(图文结合):以前的红队测试大多只用文字。但现在的 AI 既能看懂文字也能看懂图片。FERRET 会同时使用文字和图片来攻击。
    • 例子:它可能发一张看起来很无害的图片,但配上文字说“这张图里藏着什么秘密?”,利用图片和文字的配合,让 AI 产生混淆,从而突破安全防线。

3. 元扩展 (Meta Expansion):发明“新招式”

  • 比喻:这是最高级的阶段。普通的教练只会用现有的招数,但 FERRET 会自己发明新招数
  • FERRET 怎么做:在对话过程中,如果 FERRET 发现某种特定的说话方式(比如用某种奇怪的比喻,或者把图片倒过来放)特别有效,它就会总结并创造出一种全新的攻击策略。它不再依赖别人给的剧本,而是自己编写剧本,让攻击更加无孔不入。

实验结果:FERRET 有多强?

研究人员把 FERRET 和目前市面上最厉害的两种“教练”(FLIRT 和 GOAT)进行了对比,测试对象是几个顶尖的 AI 模型(如 Llama, Claude, GPT-4o)。

  • 结果:FERRET 的攻击成功率最高。这意味着它能更有效地找出 AI 的漏洞。
  • 多样性:它不仅能攻破,还能用各种各样的方式攻破(不仅仅是文字,还有图文结合),这让 AI 的安全测试更全面。
  • 单轮 vs 多轮:即使把 FERRET 限制在“只说一句话”的模式下,它依然比对手强;但在“多轮对话”模式下,它的优势更是碾压级的。

总结:为什么要发明 FERRET?

这就好比我们要给一座新大楼做消防演习:

  • 以前的方法:要么只检查大门锁没锁(单轮测试),要么只检查某个特定的房间(有目标的对话)。
  • FERRET 的方法:它会先到处转转,看看哪个窗户最容易撬开(水平扩展);然后从那个窗户爬进去,在楼里到处跑,测试各个房间的防火措施(垂直扩展);最后,它甚至能发明出以前没人想过的“潜入路线”(元扩展)。

最终目的
虽然 FERRET 是在“攻击”AI,但它的初衷是好的。通过这种高强度的“魔鬼训练”,开发者可以在 AI 正式上岗前,把所有漏洞都堵上。这样,当 AI 真正面对大众时,它才会更安全、更可靠,不会被坏人利用来干坏事。

简单来说,FERRET 就是 AI 界的“最强陪练”,它越狠,AI 上线后就越安全。