Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能（AI）的有趣现象：为什么现在的“看图说话”AI（视觉语言模型）虽然看了海量的图片，但在数数、理解空间位置、判断时间先后或理解“没有”这类逻辑时，却表现得像个笨小孩？

作者们发现，问题不在于 AI 不够聪明，也不在于它看得不够多，而在于它学习的“教材”本身就有问题。

我们可以用几个生动的比喻来理解这篇论文的核心内容：

1. 核心问题：AI 在学“偷懒”的人类语言

想象一下，你让一个 AI 去观察世界，它学习的素材是人类在社交媒体上发的图片和配文。

人类的习惯（报告偏差）： 当人类看到一张图，上面有一只猫和一只狗，我们通常会说：“一只猫和一只狗”。我们很少会说：“一只猫在狗的左边”。除非有人特意问“猫在哪？”，否则我们觉得没必要多嘴。
AI 的困境： AI 就像是一个只听过人类“偷懒”描述的学生。它学会了说“猫和狗”，但从来没被教过“左边”、“右边”、“之前”、“之后”或者“不是”。
比喻： 这就像你教一个孩子认水果，你总是说“这是苹果，那是香蕉”，但从来不说“苹果在香蕉的上面”或者“香蕉不是红色的”。结果，当你问孩子“哪个在哪个上面”时，孩子就懵了。不是孩子笨，是你没教过它这个概念。

2. 四个被“漏掉”的技能

作者发现，人类在描述图片时，习惯性地省略了四种关键信息，导致 AI 在这些方面特别弱：

空间感（Spatial）： 比如“在……上面”、“在……左边”。
时间感（Temporal）： 比如“在……之前”、“在……之后”。
数数（Counting）： 比如“有三只鸟”（人类常说“一群鸟”）。
否定（Negation）： 比如“没有鸟”（人类很少特意说“这里没有鸟”，除非那是重点）。

比喻： 想象 AI 的大脑是一个巨大的图书馆，里面有几亿本书（数据）。但是，这些书里关于“方向”、“时间”和“数量”的章节，几乎全是空白的。

3. 误区：加大马力没用（规模无法战胜现实）

很多人认为：只要给 AI 喂更多的数据（比如从 10 亿张图增加到 1000 亿张），或者把 AI 的模型做得更大，它自然就会变聪明，学会这些逻辑。

论文结论： 大错特错。
比喻： 这就像你让一个只学过“偷懒描述”的学生去背更多的书。如果书里的内容还是“猫和狗”，哪怕你让他背一亿遍，他依然学不会“猫在狗的左边”。因为人类说话的习惯（偷懒）不会因为书变多而改变。
作者通过实验证明，单纯增加数据量或模型大小，AI 在这些逻辑任务上的表现并没有显著提升，甚至离人类水平还差得远。

4. 解决方案：给“老师”布置具体的作业

既然问题出在“教材”没教好，那怎么解决呢？作者发现，只要改变给人类标注员的指令，就能解决这个问题。

以前的做法： 给标注员看一张图，说：“请描述这张图。”（结果：标注员只写“猫和狗”）。
新的做法： 给标注员看同一张图，说：“请描述这张图，必须提到猫和狗的位置关系，必须数一数有几只，必须说明有没有其他动物。”
结果： 标注员就会写出：“一只猫在狗的左边，一共有两只动物，没有鸟。”
比喻： 这就像老师不再问学生“今天发生了什么？”，而是直接问“今天谁在谁左边？谁没来？”。学生为了回答老师的问题，就不得不去观察这些细节。

5. 实验验证

作者真的做了一组实验：

他们收集了一组图片，让不同的人按照不同的指令去写描述。
结果发现，只要指令里明确要求了“数数”或“位置”，人类就会写出包含这些信息的内容。
他们用这些“新教材”去微调（训练）AI，AI 的数数和空间推理能力立刻就有了显著提升。

总结

这篇论文告诉我们一个深刻的道理：
AI 的智商上限，取决于它从人类那里学到了什么。 如果人类在描述世界时习惯性地“省略”细节，AI 就会变得“眼瞎”和“脑残”。

未来的方向：
不要指望单纯靠“堆数据量”或“堆算力”让 AI 变聪明。我们需要更有意识地设计数据收集的方法，像给老师布置具体作业一样，引导人类（或生成数据的 AI）把那些被我们忽略的细节（如位置、时间、数量、否定）都写出来。只有“教材”变好了，AI 才能真正学会像人一样思考。

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

1. 核心问题：AI 在学“偷懒”的人类语言

2. 四个被“漏掉”的技能

3. 误区：加大马力没用（规模无法战胜现实）

4. 解决方案：给“老师”布置具体的作业

5. 实验验证

总结

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 理论框架与假设

2.2 数据分布分析

2.3 基准测试构建

2.4 缩放定律 (Scaling Laws) 研究

2.5 干预实验：标注指令 (Annotator Instructions)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Key Results)

4.1 数据分布结果

4.2 模型性能结果

4.3 干预与微调结果

5. 意义与启示 (Significance)

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

1. 核心问题：AI 在学“偷懒”的人类语言

2. 四个被“漏掉”的技能

3. 误区：加大马力没用（规模无法战胜现实）

4. 解决方案：给“老师”布置具体的作业

5. 实验验证

总结

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 理论框架与假设

2.2 数据分布分析

2.3 基准测试构建

2.4 缩放定律 (Scaling Laws) 研究

2.5 干预实验：标注指令 (Annotator Instructions)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Key Results)

4.1 数据分布结果

4.2 模型性能结果

4.3 干预与微调结果

5. 意义与启示 (Significance)

类似论文

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora