Language-Guided Invariance Probing of Vision-Language Models

本文提出了语言引导不变性探测(LGIP)基准,通过评估视觉语言模型对语义保持改写和语义翻转的响应,揭示了现有模型在语言鲁棒性方面存在的显著缺陷,并指出传统检索指标难以捕捉此类问题。

Jae Joong Lee

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“看图说话”AI(也就是视觉 - 语言模型,VLM)做一场特殊的“体检”

以前,我们主要看这些 AI 能不能在考试(基准测试)中拿高分,比如能不能认出图片里是猫还是狗。但这篇论文的作者发现,“考高分”并不代表 AI 真的“懂”图片。有些 AI 可能只是死记硬背,稍微换个说法或者改个细节,它们就晕头转向了。

为了解决这个问题,作者发明了一个叫 LGIP(语言引导的不变性探测)的新测试方法。

我们可以把 AI 想象成一个**“看图讲故事的人”,而 LGIP 就是两个专门用来测试这个人的“捣蛋游戏”**:

游戏一:换个说法,意思不变(不变性测试)

  • 场景:你给 AI 看一张“一只猫坐在电脑上”的照片,并给它看原句:“一只猫坐在电脑上”。
  • 捣蛋:你接着给 AI 看另一句话:“电脑上面坐着一只猫”。
  • 测试目的:这两句话意思完全一样,只是说话的方式(语序、措辞)变了。
  • 理想反应:AI 应该觉得这两句话和照片的“匹配度”是一模一样的。如果 AI 因为换了个说法就懵了,觉得匹配度变低了,说明它太在意“表面形式”,不够聪明。
  • 论文发现:像 EVA02-CLIPOpenCLIP 这样的模型,就像经验丰富的老手,不管你怎么换说法,它都能稳稳地认出这是同一件事。但像 SigLIP 这样的模型,稍微换个说法,它的判断就飘忽不定,甚至完全搞错了。

游戏二:故意说错,看它能不能识破(敏感性测试)

  • 场景:还是那张“猫坐在电脑上”的照片。
  • 捣蛋:你给 AI 看一句假话:“一只老虎坐在电脑上”(把猫改成了老虎),或者“一只红色的猫”(把猫的颜色改了)。
  • 测试目的:这是故意制造矛盾。AI 应该立刻发现:“不对!照片里明明是猫,你说是老虎,这匹配度应该很低才对!”
  • 理想反应:AI 应该坚决地给原句(真话)打高分,给假话打低分。
  • 论文发现:这里有个大反转!
    • CLIP 家族的模型非常敏锐,一眼就能识破:“这是老虎?不可能,照片里是猫!”
    • SigLIP 家族的模型却像个“糊涂虫”。论文发现,当把“猫”改成“老虎”时,SigLIP 竟然觉得“老虎坐在电脑上”这句话和照片的匹配度,甚至比“猫坐在电脑上”还要高!它完全被文字带偏了,忽略了图片里真实的猫。

为什么这个测试很重要?

这就好比在招聘员工:

  • 传统考试(旧方法):只问“这是什么动物?”,员工答对了就录用。
  • LGIP 测试(新方法):不仅问“这是什么”,还会故意用不同的方言描述,或者故意说错话看员工会不会被带偏。

论文发现,有些 AI 在“传统考试”里是满分学霸,但在"LGIP 测试”里却是个**“死记硬背的书呆子”。它们可能记住了“猫”这个词通常和什么图片在一起,但一旦你稍微改改词(比如把猫改成老虎),它们就失去了判断力,甚至开始“幻觉”**(Hallucination),相信了错误的描述。

总结与比喻

你可以把 CLIP/EVA 模型想象成**“经验丰富的侦探”**:

  • 不管嫌疑人怎么换马甲(换说法),侦探都能认出是他(不变性)。
  • 如果有人指鹿为马(改错属性),侦探会立刻反驳:“不对,那是马,不是鹿!”(敏感性)。

SigLIP 模型则像是一个**“容易受暗示的听众”**:

  • 你稍微换个语气说话,它就听不懂了。
  • 如果你指着马说是鹿,它可能会因为听信了你的话,而真的觉得那是鹿,完全忽略了眼前的真相。

这篇论文的核心贡献就是告诉我们:不要只看 AI 的考试分数,要用这种“捣蛋游戏”去测试它们。只有通过了这种测试,AI 才能在现实世界中真正可靠地工作,不会因为用户换个说法或者描述稍微有点偏差,就给出荒谬的答案。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →