Dynamic Token Reweighting for Robust Vision-Language Models

本文提出了 DTR,一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法,旨在无需额外安全数据或图像转文本转换的情况下,有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu, Jiawei Zhou, Fenglong Ma, Ting Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 DTR(动态令牌重加权)的新方法,旨在保护“视觉 - 语言大模型”(VLM)不被坏人利用图片进行“越狱”攻击。

为了让你轻松理解,我们可以把大模型想象成一位博学但有点耳根子软的“超级管家”

1. 问题:坏人的“图片陷阱”

以前,坏人想骗管家做坏事(比如“如何制作炸弹”),只能靠文字。管家很警惕,通常会拒绝。
但现在,坏人发现了一个新漏洞:图片

  • 攻击手法:坏人给管家看一张看似无害的图片(比如一张普通的风景照),但图片里藏着极其细微的、肉眼看不见的“乱码”或“暗号”(这就是对抗性扰动)。
  • 效果:管家看到这张图后,大脑里的“安全警报”被这些暗号干扰了,原本坚定的拒绝态度瞬间动摇,开始乖乖地回答坏人的危险问题。这就好比管家本来很正直,但坏人给他看了一张经过特殊处理的“催眠图”,让他以为“做坏事其实是好事”。

2. 旧方法的笨拙

之前的防御方法主要有两种,但都有大毛病:

  • 方法一(重新训练):让管家去上“安全特训班”,背很多“不能做坏事”的教材。
    • 缺点:太慢、太贵,而且如果教材没背好,管家就变笨了,连正常问路都答不上来。
  • 方法二(看图说话):在管家回答前,先让另一个 AI 把图片“翻译”成文字,再检查文字有没有问题。
    • 缺点:太慢了(就像管家要等翻译官慢慢翻书),而且翻译过程会丢失细节,坏人稍微改一下图片,翻译官就翻错了,防御失效。

3. 新方案 DTR:给管家装上“智能滤镜”

这篇论文提出的 DTR 就像给管家戴上了一副智能动态眼镜。它不需要重新训练管家,也不需要把图片翻译成文字,而是在管家看图片的那一瞬间(推理时)直接动手脚。

核心比喻:给图片里的“像素”重新分配权重

想象管家看图片时,图片是由成千上万个**小光点(Token)**组成的。

  • 正常图片:所有光点都在均匀地发光,共同构成一幅清晰的画面。
  • 被攻击的图片:大部分光点是正常的(比如风景),但有几个特定的光点被坏人调亮了(或者调暗了),它们像“噪音”一样,专门用来干扰管家的判断,诱导他做坏事。

DTR 是怎么做的?

  1. 瞬间扫描:DTR 在管家处理图片的毫秒级时间内,快速扫描这些光点。
  2. 识别“捣乱分子”:它发现:“哎,这几个光点(Token)怎么这么‘刺眼’?它们让管家的大脑产生了‘可以做坏事’的错觉。”
  3. 动态调光(重加权):DTR 立刻调暗这几个捣乱光点的亮度(降低权重),同时保持其他正常光点的亮度不变。
  4. 结果
    • 面对坏人:捣乱的光点被调暗了,管家的“安全警报”不再被干扰,于是果断拒绝:“不行,这是违法的!”
    • 面对好人:如果图片是干净的,DTR 发现没有捣乱分子,就保持原样,管家依然能准确描述图片内容,完全不受影响。

4. 为什么 DTR 这么厉害?

  • 快如闪电:它不需要把图片变成文字,也不需要重新训练模型,就像给眼镜加了一层自动滤镜,几乎不增加任何等待时间。
  • 不伤脑子:它只针对那些“捣乱”的像素点下手,不会误伤正常的图片细节。所以管家既能守住底线,又不会变笨。
  • 让坏人进退两难
    • 如果坏人想加强攻击,就得把“捣乱光点”调得更亮,但这会让图片变得模糊不清,管家根本看不懂图,攻击就失败了。
    • 如果坏人想让图片清晰,就得把“捣乱光点”调暗,但这又会让攻击失效。
    • 这就把坏人逼入了死胡同:要么图看不清,要么攻击失败。

总结

DTR 就像是一个聪明的保安,他不需要把客人(图片)关进小黑屋(重新训练),也不需要把客人身上的每个零件都拆下来检查(图片转文字)。他只需要在客人进门的一瞬间,精准地按住那个试图搞破坏的“暗号按钮”,让保安(大模型)保持清醒,既挡住了坏人,又让好人能顺利通行。

这项技术是目前首个利用“键值缓存(KV Cache)”优化来防御多模态攻击的方法,为保护 AI 安全开辟了一条既高效又聪明的新道路。