Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

该论文提出了一种以人类感知难度为核心的分布外(OOD)谱系框架,通过量化刺激偏离程度来重新定义挑战等级,从而在不同难度区间内更精准地评估了各类深度学习模型(如 CNN、ViT 及视觉 - 语言模型)与人类在错误模式上的一致性。

Binxia Xu, Xiaoliang Luo, Luke Dickens, Robert M. Mok

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章探讨了一个非常有趣的问题:当人工智能(AI)犯错时,它犯错的方式像人类吗?

为了让你更容易理解,我们可以把这项研究想象成一场**“视力与认知大考”**,而不仅仅是看谁分数高。

1. 核心问题:分高不代表“像人”

想象一下,你和一位 AI 都在做一张标准的数学试卷。你们俩都得了 95 分。

  • 人类视角:你可能因为粗心算错了一道题,或者因为看错了数字。
  • AI 视角:它可能完全理解了题目,但在某个极其罕见的逻辑陷阱上卡住了。

虽然分数一样(准确率相同),但你们思考的路径和犯错的原因可能完全不同。以前的研究只看“谁分高”,但这就像只看考试排名,却不管学生是怎么解题的。这篇论文想问的是:当题目变得很难、很模糊(比如图片被模糊处理、加了噪点)时,AI 和人类是“一起掉坑里”,还是各自掉进不同的坑里?

2. 以前的方法有个大漏洞:尺子不统一

研究人员以前喜欢用“参数”来制造难题。比如:

  • 给图片加“第 5 级”的模糊。
  • 给图片加“第 5 级”的噪点。

问题在于:对 AI 来说,“第 5 级模糊”可能很难,但对人类来说可能只是有点看不清;而“第 5 级噪点”对人类来说可能完全无法辨认,对 AI 却还能猜对。
这就好比用不同的尺子量长度:一把尺子的"5 厘米”是另一把尺子的"10 厘米”。如果直接比较,结果就是乱的。

3. 新方案:用“人类的感受”当尺子

这篇论文提出了一个**“以人为本的标尺”
他们不再看参数(比如模糊程度是几),而是看
人类做这些题时的表现**。

  • 建立“困难度光谱”:研究人员把各种变形的图片,按照人类做错的概率重新排队。
    • 参考区:人类几乎全对(正常图片)。
    • 近郊 OOD(轻微困难):人类开始有点迷糊,偶尔犯错。
    • 远郊 OOD(极度困难):人类几乎看不清,像是在猜谜。
    • 极端区:图片已经乱成一团,人类完全无法识别(这时候 AI 和人类比谁更笨就没意义了)。

比喻:这就好比把不同口味的辣度(微辣、中辣、特辣)不再按配方里的辣椒克数来分,而是按**“普通人吃下去会不会流汗”**来分级。这样,无论是什么类型的辣,大家都是在同一个“流汗等级”上比较。

4. 研究发现:AI 家族各有“性格”

在这个统一的“困难度标尺”下,研究人员测试了三种主要的 AI 模型家族,发现它们的表现大不相同:

  • CNN(卷积神经网络,像传统的“纹理观察家”)

    • 在“近郊”(轻微困难):它们和人类很像!因为人类看东西也依赖纹理,所以在这个阶段,CNN 和人类会犯类似的错。
    • 在“远郊”(极度困难):它们彻底崩盘。一旦纹理被破坏,它们就完全不知道是什么了,而人类还能靠形状猜个大概。
  • ViT(视觉 Transformer,像“全局拼图手”)

    • 在“近郊”:它们反而和人类有点“格格不入”,虽然分很高,但犯错的方式很独特。
    • 在“远郊”:它们突然变得很“像人”了!因为当细节(纹理)消失时,ViT 擅长抓整体结构,这反而和人类在极度模糊下的生存策略不谋而合。
  • VLM(视觉 - 语言模型,像“懂文化的博学家”)

    • 全程表现最稳:无论题目是轻微困难还是极度困难,它们和人类的犯错模式最接近。
    • 原因:它们不仅看图,还“读”图(结合了语言知识)。就像人类在看不清图片时,会动用常识和语言知识去猜(比如看到模糊的一团,结合语境猜是“猫”),VLM 也有这种“语义脚手架”,所以它们最像人。

5. 结论与启示

这项研究告诉我们:

  1. 不能只看准确率:一个 AI 在正常图片上很聪明,不代表它在混乱环境下也可靠。
  2. AI 的“性格”取决于环境:有的 AI 像“细节控”,有的像“大局观”,有的像“博学家”。在不同的困难程度下,它们的“人类相似度”会发生变化。
  3. 未来的方向:我们要造出不仅分高,而且犯错方式像人类的 AI。因为如果 AI 犯错的方式和人类一样(比如都因为看不清而猜错),那它在现实世界中就是可预测、可信任的;如果它犯错的方式很怪异(比如人类觉得是猫,它觉得是卡车,而且毫无逻辑),那它就是个不可靠的“黑盒”。

一句话总结
这篇论文发明了一把**“人类感受尺”**,重新测量了 AI 的抗干扰能力。结果发现,没有一种 AI 在所有情况下都像人,但结合了语言知识的“博学家”型 AI(VLM)最接近人类的思维模式,而传统的 AI 在极度困难时会暴露出与人类截然不同的弱点。