Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

该论文通过对 23 个视觉问答基准的大规模实证研究,量化分析了多模态数据中模态内与模态间依赖关系的复杂分布,揭示了当前许多旨在消除文本偏见的基准反而加剧了图像依赖,从而为多模态基准的设计与评估提供了定量依据。

Divyam Madaan, Varshan Muhunthan, Kyunghyun Cho, Sumit Chopra

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“多模态大模型的体检报告”**,但它查的不是病,而是查这些 AI 到底是不是真的“聪明”,还是只是在“作弊”。

为了让你更容易理解,我们可以把现在的多模态 AI(既能看图又能读文的 AI)想象成一个正在参加“看图说话”考试的学生

1. 核心问题:学生是在“真懂”,还是在“蒙答案”?

现在的 AI 考试(基准测试)通常是这样出的:给你一张图片,再给你一段文字问题,让你选答案。

  • 理想情况:学生需要同时看懂图片,读懂问题,把两者结合起来,才能答对。这叫**“真正的多模态推理”**。
  • 现实情况(论文发现的):很多学生其实很“懒”。
    • 有的学生根本不看图,光读问题就能猜出答案(比如问题问“地球有几层?”,不管图里画的是个脑子还是地球,他都知道是 3 层)。这叫**“只靠文字作弊”**。
    • 有的学生根本不看问题,光看图就能猜出答案(比如图里画了个长颈鹿,不管问题问什么,他都选“长颈鹿”相关的选项)。这叫**“只靠图片作弊”**。

这篇论文的作者们(来自纽约大学等机构)觉得,现在的考试太乱了。大家拼命出新的考题,以为能考出 AI 的真本事,结果 AI 总能找到新的“捷径”(作弊方法)混过去。

2. 他们做了什么?(“打乱重排”实验)

为了揭穿这些“作弊”行为,作者们设计了一个**“打乱重排”**的测试方法,就像给考试加了“防作弊滤镜”:

  • 正常考试:原图 + 原题。
  • 文字作弊测试:把题目换掉,换成另一张图的题目,但图还是原来的。如果 AI 还能答对,说明它根本不看图,全靠背题。
  • 图片作弊测试:把图换掉,换成另一道题的图,但题目还是原来的。如果 AI 还能答对,说明它根本不看题,全靠看图猜。
  • 乱点鸳鸯谱:图和题都换成了不相关的。这时候 AI 如果还能答对,那纯属瞎蒙。

3. 他们发现了什么惊人的真相?

作者们测试了 23 个流行的 AI 考试(比如 ScienceQA, MMMU, TextVQA 等),结果让人大跌眼镜:

  • 真相一:几乎没有真正的“多模态”考试。
    大多数考试里,AI 要么光靠读题就能拿高分,要么光看图就能拿高分。真正需要“图文结合”才能答对的题目,少得可怜。

    • 比喻:就像你让一个学生做“看图写话”,结果他发现只要背下题目里的关键词就能拿 A,根本不用看画。
  • 真相二:为了防文字作弊,反而引入了图片作弊。
    以前的考试被批评“太依赖文字”,于是出题人拼命改题,试图让 AI 必须看图。结果呢?AI 发现:“哦,原来只要看图就能猜出答案,不用读题了!”

    • 比喻:就像老师发现学生背答案,于是把答案藏起来,只给图片。结果学生发现:“只要看到图片里的红色苹果,我就选‘苹果’,根本不用管老师问的是‘什么颜色’还是‘什么味道’。”
    • 结论:出题人只是把“文字捷径”换成了“图片捷径”,并没有真正考到“结合能力”。
  • 真相三:模型越大,作弊越溜。
    大家以为模型参数越大(越聪明),就越能真正理解图文关系。结果发现,模型越大,它利用“单模态捷径”的能力越强

    • 比喻:就像一个更聪明的学生,以前只会背题,现在学会了“看图猜题”,而且猜得更快、更准了。但这不代表他更懂“看图说话”的逻辑。

4. 为什么这很重要?

这就好比我们在评价一个**“全能运动员”**。

  • 现在的测试是:让他跑 100 米(看图)或者让他举重(读题)。
  • 结果发现,他跑得快是因为穿了跑鞋(文字捷径),举重厉害是因为用了杠铃(图片捷径)。
  • 我们以为他“全能”,其实他可能连“一边跑步一边举重”(图文结合)都做不到。

如果继续用这种有漏洞的考试来评价 AI,我们就会误以为 AI 进步神速,实际上它只是在**“钻空子”**。这会导致我们开发出越来越复杂的模型,却解决不了真正的问题(比如让 AI 真正理解复杂的场景)。

5. 作者的建议:以后该怎么考?

这篇论文呼吁大家停止这种“猫鼠游戏”(出题人出题,AI 找漏洞),并提出:

  1. 别只给一个总分:以后报告成绩时,要分开说:它光靠图能得多少分?光靠文能得多少分?真正结合能得多少分?
  2. 允许“不知道”:现在的 AI 即使瞎蒙也会强行给个答案。未来的考试应该允许 AI 说:“这题图文对不上,我没法回答”,这才是真正的智能。
  3. 少做选择题,多做开放题:选择题太容易被“猜”了,应该让 AI 自己生成答案,这样更难作弊。

总结

简单来说,这篇论文告诉我们:现在的 AI 考试大多有漏洞,AI 们都在“走捷径”而不是“真学习”。 我们不能再盲目追求分数的提升,而应该重新设计考试,真正去测试 AI 是否具备**“图文结合”**的深层理解能力。否则,我们只是在培养一群只会“投机取巧”的超级学霸,而不是真正的智能助手。