VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本文提出了 VLM-RobustBench 基准,通过涵盖 49 种增强类型和 133 种扰动设置,评估了主流视觉语言模型在多种图像失真下的鲁棒性,揭示了当前模型虽语义能力强但空间脆弱,且低严重度几何扰动(如玻璃模糊)往往比高严重度光度扰动造成更显著的性能下降。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**“给视觉语言模型(VLM)做体检”**的研究报告。

想象一下,现在的 AI 就像是一群**“超级学霸”**。它们读过海量的书,看过无数的图片,在标准的考试(比如清晰的、完美的图片)中,它们能拿满分,甚至能像人一样推理复杂的科学问题。

但是,这篇论文的作者们觉得:“光在考场上拿高分还不够,得看看它们在‘真实世界’里会不会‘翻车’。”

真实世界是什么样的?

  • 照片可能拍糊了(模糊)。
  • 可能下雨了、起雾了(天气干扰)。
  • 可能手机信号不好,图片被压缩得全是马赛克(数字失真)。
  • 甚至可能图片被倒过来了,或者被拉伸变形了(几何扭曲)。

这篇论文就是给这些 AI 学霸们搞了一个**“极端环境挑战赛”**,名字叫 VLM-RobustBench


🏆 核心发现:学霸的“偏科”与“脆皮”

作者们测试了 11 种最顶尖的 AI 模型(包括 Qwen、InternVL 等),让它们在各种“脏乱差”的图片上做题。结果发现了三个让人大跌眼镜的真相:

1. “看着严重”不等于“真的难”

  • 比喻:就像一个人脸上涂满了红色的颜料(看起来像受伤了,很严重),但他可能只是化了个妆,脑子依然清醒;而另一个人脸上只有一点点灰尘(看起来不严重),但这灰尘刚好迷住了他的眼睛,让他瞬间瞎了。
  • 发现:在 AI 的世界里,“视觉上的严重程度”并不能预测“做题的难度”
    • 有些看起来非常严重的干扰(比如把图片调得很暗、加很多噪点),AI 居然还能做对。
    • 但有些看起来微不足道的干扰(比如把图片稍微“玻璃化”模糊一下,或者把图片分辨率稍微调高一点),AI 的准确率却断崖式下跌
    • 结论:AI 对“空间结构”的变化非常敏感,哪怕只是轻微的变形,对它们来说都是致命的。

2. “简单的恶作剧”能毁掉一切

  • 比喻:想象你在做数学题,突然有人把试卷上下颠倒了,或者把试卷上的红黑颜色对调了。对于人类来说,这很容易适应,转过来看就行。但对于这些 AI 来说,这简直是**“降维打击”**。
  • 发现
    • 把图片垂直翻转(上下颠倒),AI 的准确率会暴跌 10 个百分点以上。
    • 把图片颜色反转(黑白变反色),AI 也会直接“傻眼”。
    • 这些操作不需要任何复杂的算法,只是简单的“翻转”或“变色”,却比把图片弄得全是雪花点(高严重度噪声)还要让 AI 崩溃。这说明 AI 太依赖“图片必须是正着放的、颜色必须是正常的”这种死板的直觉了。

3. 不同的“学霸”有不同的“死穴”

  • 比喻:就像有的学生怕数学,有的学生怕英语。有的 AI 模型特别怕“像素化”(图片变马赛克),有的模型特别怕“拉伸变形”。
  • 发现:没有一种模型是完美的。即使是参数最大的模型,也有自己的“阿喀琉斯之踵”。比如,有的模型一遇到“弹性变形”(像把图片放在果冻上抖动)就彻底失效,准确率能掉 30% 以上。

🧪 他们是怎么做的?(实验方法)

作者们建立了一个**“魔鬼训练场”**:

  1. 题库:用了两个著名的考试卷(MMBench 和 MMMU-Pro),一个侧重看图说话,一个侧重逻辑推理。
  2. 干扰项:他们准备了49 种不同的“干扰手段”,从模糊、噪声、天气(雨雾雪),到几何变形(旋转、拉伸)、甚至给图片加个水印或边框。
  3. 难度分级:每种干扰还分了低、中、高三个等级。
  4. 测试:让 11 个 AI 模型在这些被“污染”过的图片上做题,看它们还能得多少分。

💡 这对我们意味着什么?(给开发者的建议)

这篇论文给 AI 开发者敲响了警钟:

  1. 别只练“标准题”:现在的 AI 训练太依赖完美的图片了。如果以后要把 AI 用在自动驾驶(路上有雾、有雨、镜头有污渍)或者医疗诊断(X 光片可能有伪影)上,现在的 AI 可能会因为一点小干扰就犯大错。
  2. 要练“抗揍”能力:未来的训练必须加入更多**“几何变形”“重采样”**(比如放大缩小图片)的练习。要让 AI 学会:“不管图片怎么歪、怎么变、怎么模糊,我都能认出这是只猫。”
  3. 重新定义“聪明”:一个真正聪明的 AI,不应该只在干净的数据集上拿高分,而应该在混乱、真实、充满瑕疵的世界里依然能稳定工作。

📝 一句话总结

现在的 AI 视觉模型就像“温室里的花朵”,在完美的实验室里是天才,但一旦遇到现实世界中稍微有点“歪”或“糊”的图片,它们就会变得非常脆弱。这篇论文就是给它们做的一次“压力测试”,告诉我们要让它们学会在风雨中生存,而不仅仅是在阳光下绽放。