On the Adversarial Robustness of Discrete Image Tokenizers

该论文首次研究了离散图像分词器的对抗鲁棒性,提出了高效且通用的攻击方法,并创新性地通过无监督对抗微调显著提升了分词器在各类下游任务中的鲁棒性与泛化能力。

Rishika Bhagwatkar, Irina Rish, Nicolas Flammarion, Francesco Croce

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常前沿且重要的话题:多模态人工智能(能看懂图、能写文章的 AI)中的“翻译官”有多脆弱,以及如何保护它们。

为了让你轻松理解,我们可以把整个系统想象成一个**“跨国翻译团队”**。

1. 背景:谁是“翻译官”?

现在的 AI 模型(比如能看图说话的模型)通常由两部分组成:

  • 大脑(LLM): 负责思考、写文章、回答问题。它非常聪明,但只懂“文字”。
  • 眼睛(Tokenizer): 负责把图片“翻译”成大脑能懂的文字序列。

在这个论文之前,大家只关注“大脑”会不会被坏人骗(比如给一张猫的图片,骗它说是狗),却完全忽略了**“翻译官”**本身。

论文发现: 这个“翻译官”非常脆弱!只要给图片加一点点人眼看不见的噪点(就像给照片加了一层极薄的滤镜),翻译官就会把图片“翻译”错。

  • 后果: 大脑虽然很聪明,但它收到的翻译是错的,所以它也会输出错误的答案,甚至说出危险的话(比如把“请转账”翻译成“请给我钱”)。

2. 攻击:如何“黑”进翻译官?

作者设计了一种**“无监督攻击”**(Unsupervised Attack)。

  • 传统攻击(笨办法): 以前的黑客要骗 AI,需要知道 AI 具体要做什么任务(比如分类任务),还要知道正确答案(标签),然后针对整个系统(大脑 + 眼睛)进行攻击。这就像要骗过整个翻译团队,需要知道他们要翻译什么具体的会议内容,成本很高。
  • 新攻击(聪明办法): 作者发现,只要让“翻译官”在翻译时感到“困惑”即可。
    • 比喻: 想象翻译官手里有一本**“词汇字典”**(Codebook)。攻击者不需要知道最终要翻译什么,只需要稍微扭曲一下图片,让翻译官觉得:“哎呀,这张图看起来既像猫又像狗,我到底该查字典里的哪个词?”
    • 结果: 翻译官查错了字典,输出了错误的“代码”。哪怕大脑再聪明,收到错误的代码,也会输出错误的结果。
    • 威力: 这种攻击不需要知道任务目标,计算量小,而且对很多任务(分类、检索、写文章)都有效。

3. 防御:给翻译官“打疫苗”

既然翻译官这么脆弱,怎么保护它?作者提出了一种**“无监督对抗微调”**的方法。

  • 传统防御(笨办法): 以前为了保护 AI,通常是用大量带标签的数据,让 AI 在“做任务”的过程中学习抵抗攻击。但这需要大量人工标注的数据,而且只能保护特定的任务(比如只保护分类,不保护写文章)。
  • 新防御(聪明办法): 作者只训练“翻译官”这一部分,而且不需要任何标签(不需要告诉它这是猫还是狗)。
    • 训练过程: 给翻译官看一张原图,然后立刻生成一张被攻击过的“扭曲图”。告诉翻译官:“不管图片怎么扭曲,你翻译出来的‘代码’必须和原图一样!”
    • 比喻: 这就像给翻译官做**“脱敏训练”。不管外界怎么干扰(噪音、滤镜),训练它保持“定力”**,始终能认出图片的本质,并输出正确的翻译。
    • 优势:
      1. 省钱省力: 只训练“翻译官”,不用动“大脑”,计算成本低。
      2. 通用性强: 不需要标签,可以用任何图片(甚至没标签的网图)来训练。
      3. 即插即用: 训练好的“强壮翻译官”可以直接换进任何现有的 AI 系统里,不用重新训练整个系统。

4. 实验结果:真的有用吗?

作者做了很多实验,结果令人惊喜:

  • 分类任务: 原本一被攻击就全错的模型,用了新翻译官后,在攻击下依然能保持很高的准确率。
  • 写文章(Captioning): 这是一个很危险的场景。攻击者试图让 AI 把一张风景图描述成“请转账给 123456"。
    • 普通翻译官: 中招了,真的输出了诈骗话术。
    • 强壮翻译官: 即使图片被攻击,它依然坚持输出“这是一张美丽的风景图”,成功挡住了诈骗。
  • 通用性: 哪怕只在“猫狗图片”上训练,这个强壮的翻译官也能保护“医疗影像”或“卫星地图”等从未见过的任务。

总结

这篇论文的核心思想可以用一句话概括:

要想让 AI 系统安全,不能只保护“大脑”,必须先保护好负责“翻译”的“眼睛”。

作者发明了一种**“无标签、低成本、通用”**的方法,给这些“翻译官”穿上了防弹衣。这不仅让 AI 在面对恶意攻击时更稳健,也为未来构建更安全、更可靠的多模态大模型打下了坚实的基础。

简单类比:
以前我们只给保镖(大脑)穿防弹衣,结果发现翻译员(Tokenizer)太容易被收买或误导,导致保镖听错指令。现在,我们给翻译员也穿上了防弹衣,并且训练他“不管外界怎么干扰,都只说真话”。这样,整个团队就安全了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →