Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

该论文指出,视觉语言模型在空间、时间、否定和计数等推理任务上的表现不足源于训练数据中的“报道偏差”,且单纯依靠扩大数据或模型规模无法解决这一问题,必须通过引入专门收集隐含信息的标注数据来改善。

Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang, Ranjay Krishna

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能(AI)的有趣现象:为什么现在的“看图说话”AI(视觉语言模型)虽然看了海量的图片,但在数数、理解空间位置、判断时间先后或理解“没有”这类逻辑时,却表现得像个笨小孩?

作者们发现,问题不在于 AI 不够聪明,也不在于它看得不够多,而在于它学习的“教材”本身就有问题

我们可以用几个生动的比喻来理解这篇论文的核心内容:

1. 核心问题:AI 在学“偷懒”的人类语言

想象一下,你让一个 AI 去观察世界,它学习的素材是人类在社交媒体上发的图片和配文。

  • 人类的习惯(报告偏差): 当人类看到一张图,上面有一只猫和一只狗,我们通常会说:“一只猫和一只狗”。我们很少会说:“一只猫在狗的左边”。除非有人特意问“猫在哪?”,否则我们觉得没必要多嘴。
  • AI 的困境: AI 就像是一个只听过人类“偷懒”描述的学生。它学会了说“猫和狗”,但从来没被教过“左边”、“右边”、“之前”、“之后”或者“不是”。
  • 比喻: 这就像你教一个孩子认水果,你总是说“这是苹果,那是香蕉”,但从来不说“苹果在香蕉的上面”或者“香蕉不是红色的”。结果,当你问孩子“哪个在哪个上面”时,孩子就懵了。不是孩子笨,是你没教过它这个概念。

2. 四个被“漏掉”的技能

作者发现,人类在描述图片时,习惯性地省略了四种关键信息,导致 AI 在这些方面特别弱:

  1. 空间感(Spatial): 比如“在……上面”、“在……左边”。
  2. 时间感(Temporal): 比如“在……之前”、“在……之后”。
  3. 数数(Counting): 比如“有三只鸟”(人类常说“一群鸟”)。
  4. 否定(Negation): 比如“没有鸟”(人类很少特意说“这里没有鸟”,除非那是重点)。

比喻: 想象 AI 的大脑是一个巨大的图书馆,里面有几亿本书(数据)。但是,这些书里关于“方向”、“时间”和“数量”的章节,几乎全是空白的。

3. 误区:加大马力没用(规模无法战胜现实)

很多人认为:只要给 AI 喂更多的数据(比如从 10 亿张图增加到 1000 亿张),或者把 AI 的模型做得更大,它自然就会变聪明,学会这些逻辑。

  • 论文结论: 大错特错。
  • 比喻: 这就像你让一个只学过“偷懒描述”的学生去背更多的书。如果书里的内容还是“猫和狗”,哪怕你让他背一亿遍,他依然学不会“猫在狗的左边”。因为人类说话的习惯(偷懒)不会因为书变多而改变。
  • 作者通过实验证明,单纯增加数据量或模型大小,AI 在这些逻辑任务上的表现并没有显著提升,甚至离人类水平还差得远。

4. 解决方案:给“老师”布置具体的作业

既然问题出在“教材”没教好,那怎么解决呢?作者发现,只要改变给人类标注员的指令,就能解决这个问题。

  • 以前的做法: 给标注员看一张图,说:“请描述这张图。”(结果:标注员只写“猫和狗”)。
  • 新的做法: 给标注员看同一张图,说:“请描述这张图,必须提到猫和狗的位置关系,必须数一数有几只,必须说明有没有其他动物。”
  • 结果: 标注员就会写出:“一只猫在狗的左边,一共有两只动物,没有鸟。”
  • 比喻: 这就像老师不再问学生“今天发生了什么?”,而是直接问“今天谁在谁左边?谁没来?”。学生为了回答老师的问题,就不得不去观察这些细节。

5. 实验验证

作者真的做了一组实验:

  1. 他们收集了一组图片,让不同的人按照不同的指令去写描述。
  2. 结果发现,只要指令里明确要求了“数数”或“位置”,人类就会写出包含这些信息的内容。
  3. 他们用这些“新教材”去微调(训练)AI,AI 的数数和空间推理能力立刻就有了显著提升。

总结

这篇论文告诉我们一个深刻的道理:
AI 的智商上限,取决于它从人类那里学到了什么。 如果人类在描述世界时习惯性地“省略”细节,AI 就会变得“眼瞎”和“脑残”。

未来的方向:
不要指望单纯靠“堆数据量”或“堆算力”让 AI 变聪明。我们需要更有意识地设计数据收集的方法,像给老师布置具体作业一样,引导人类(或生成数据的 AI)把那些被我们忽略的细节(如位置、时间、数量、否定)都写出来。只有“教材”变好了,AI 才能真正学会像人一样思考。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →