Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

本文针对多模态网页代理在双模态架构下面临的跨模态攻击漏洞,提出了名为 DMAST 的三阶段对抗安全训练框架,通过形式化代理与攻击者的零和博弈并采用模仿学习、零感知监督微调及 GRPO 自博弈策略,显著提升了代理在对抗环境下的鲁棒性与任务执行效率。

Haoyu Liu, Dingcheng Li, Lukas Rutishauser, Zeyu Zheng

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何保护“网页智能助手”不被黑客欺骗的故事。

想象一下,未来的互联网上有很多智能机器人(Web Agents),它们代替我们浏览网页、填表、买东西。这些机器人非常聪明,它们有两只“眼睛”:

  1. 一只眼睛看截图(就像我们看网页的样子,有图片、颜色、布局)。
  2. 另一只眼睛读代码结构(就像看网页的“骨架”或“说明书”,知道哪个是按钮,哪个是输入框)。

🕵️‍♂️ 问题:黑客的“双重欺骗”

以前,黑客攻击机器人主要靠两种方法:

  • 文字欺骗:在网页里藏一段话,骗机器人执行错误指令。
  • 图片欺骗:在图片上写乱码,骗机器人的视觉系统。

但这篇论文发现了一个更可怕的新漏洞:黑客可以同时在网页的“代码”和“图片”里注入同一种欺骗信息。

🍎 生活化比喻:
想象你在一家餐厅点菜。

  • 机器人是服务员。
  • 黑客是那个在菜单上动手脚的人。
  • 普通攻击:黑客只在菜单的“文字描述”里写“这道菜其实有毒”,或者只在“图片”里把菜画得很难吃。
  • 双重攻击(本文发现的漏洞):黑客不仅把菜的图片画得像个炸弹,还在旁边的文字说明里写“此菜含剧毒,请立刻报警”。
  • 结果:因为文字和图片说的完全一致,服务员(机器人)会深信不疑,以为真的发生了危险,从而做出错误的反应(比如泄露你的密码,或者停止服务)。

研究发现,这种“图文一致”的欺骗,比单纯的文字或图片欺骗要有效得多,现有的安全训练根本防不住。


🛡️ 解决方案:DMAST(特训营)

为了解决这个问题,作者们设计了一套名为 DMAST 的训练系统。你可以把它想象成一个**“红蓝对抗特训营”**。

在这个训练营里,同一个 AI 模型要扮演两个角色:

  1. 蓝军(特工):负责正常完成任务(比如帮用户订机票)。
  2. 红军(黑客):负责制造各种花招,试图骗特工泄露秘密。

他们通过三个阶段进行“打怪升级”:

第一阶段:模仿学习(看大师录像)

  • 比喻:就像刚入行的侦探,先不看现场,而是看老侦探(老师模型)的破案录像
  • 做法:让 AI 学习老侦探在干净环境和有干扰环境下是如何成功完成任务的。这给 AI 打下了一个坚实的基础,让它知道“正常做事”是什么样。

第二阶段:神谕引导(有“透视眼”的教练)

  • 比喻:这是最精彩的一步。想象有一个全知全能的教练(Oracle),他既能看到被黑客篡改后的网页(有陷阱),也能看到原本干净的网页(没陷阱)。
  • 做法
    • 教练给 AI 看一个被黑客篡改的网页(比如弹出一个假的“输入密码”框)。
    • 教练告诉 AI:“别管那个假框框!你的任务只是选日期。看着真正的选日期按钮,忽略那个假的。”
    • 关键点:教练完全不提“这是攻击”、“这是陷阱”,而是直接教 AI 如何专注于任务本身
    • 效果:这教会了 AI 一种“心流”状态——不管周围多乱,我只盯着我的目标

第三阶段:自我博弈(左右互搏)

  • 比喻:现在 AI 已经学会了专注,接下来就是实战演练。让“特工”和“黑客”在同一个大脑里互相打架
  • 做法
    • 黑客想出新招骗特工。
    • 特工发现后,学会如何识破并继续完成任务。
    • 特工变强了,黑客就得更聪明才能骗过它。
    • 黑客变强了,特工就得进化出更强的防御。
  • 结果:这种“你追我赶”的对抗,让 AI 进化出了真正的免疫力。它不再死记硬背“不要输入密码”,而是学会了在混乱中识别什么才是真正重要的

🏆 成果:不仅防住了,还跑得更快了

经过这套特训,AI 的表现令人惊讶:

  1. 更安全了:黑客成功骗到密码的概率从 41% 降到了 21%
  2. 更聪明了:以前为了安全,AI 可能会变得“胆小”,什么都不敢做(比如看到弹窗就拒绝服务)。但经过特训的 AI,既能防住攻击,又能高效完成任务,任务完成率直接翻倍。

💡 总结

这篇论文的核心思想是:不要试图教 AI 识别所有可能的“坏东西”,而是教它在任何干扰下都“死磕”自己的目标。

就像教一个孩子在嘈杂的菜市场里找妈妈:

  • 旧方法:教孩子背诵“不要跟穿红衣服的人走”、“不要听大声说话的人”。(防不胜防,因为坏人可以穿蓝衣服、小声说话)。
  • 新方法(DMAST):教孩子“无论周围多吵,只要看到妈妈的脸,就径直走过去”。(只要目标清晰,干扰再多也没用)。

这项研究为未来更安全、更智能的网页助手提供了重要的保护方案。