Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Each language version is independently generated for its own context, not a direct translation.

这篇文章探讨了一个非常有趣的问题：当人工智能（AI）犯错时，它犯错的方式像人类吗？

为了让你更容易理解，我们可以把这项研究想象成一场**“视力与认知大考”**，而不仅仅是看谁分数高。

1. 核心问题：分高不代表“像人”

想象一下，你和一位 AI 都在做一张标准的数学试卷。你们俩都得了 95 分。

人类视角：你可能因为粗心算错了一道题，或者因为看错了数字。
AI 视角：它可能完全理解了题目，但在某个极其罕见的逻辑陷阱上卡住了。

虽然分数一样（准确率相同），但你们思考的路径和犯错的原因可能完全不同。以前的研究只看“谁分高”，但这就像只看考试排名，却不管学生是怎么解题的。这篇论文想问的是：当题目变得很难、很模糊（比如图片被模糊处理、加了噪点）时，AI 和人类是“一起掉坑里”，还是各自掉进不同的坑里？

2. 以前的方法有个大漏洞：尺子不统一

研究人员以前喜欢用“参数”来制造难题。比如：

给图片加“第 5 级”的模糊。
给图片加“第 5 级”的噪点。

问题在于：对 AI 来说，“第 5 级模糊”可能很难，但对人类来说可能只是有点看不清；而“第 5 级噪点”对人类来说可能完全无法辨认，对 AI 却还能猜对。
这就好比用不同的尺子量长度：一把尺子的"5 厘米”是另一把尺子的"10 厘米”。如果直接比较，结果就是乱的。

3. 新方案：用“人类的感受”当尺子

这篇论文提出了一个**“以人为本的标尺”。
他们不再看参数（比如模糊程度是几），而是看人类做这些题时的表现**。

建立“困难度光谱”：研究人员把各种变形的图片，按照人类做错的概率重新排队。
- 参考区：人类几乎全对（正常图片）。
- 近郊 OOD（轻微困难）：人类开始有点迷糊，偶尔犯错。
- 远郊 OOD（极度困难）：人类几乎看不清，像是在猜谜。
- 极端区：图片已经乱成一团，人类完全无法识别（这时候 AI 和人类比谁更笨就没意义了）。

比喻：这就好比把不同口味的辣度（微辣、中辣、特辣）不再按配方里的辣椒克数来分，而是按**“普通人吃下去会不会流汗”**来分级。这样，无论是什么类型的辣，大家都是在同一个“流汗等级”上比较。

4. 研究发现：AI 家族各有“性格”

在这个统一的“困难度标尺”下，研究人员测试了三种主要的 AI 模型家族，发现它们的表现大不相同：

CNN（卷积神经网络，像传统的“纹理观察家”）：
- 在“近郊”（轻微困难）：它们和人类很像！因为人类看东西也依赖纹理，所以在这个阶段，CNN 和人类会犯类似的错。
- 在“远郊”（极度困难）：它们彻底崩盘。一旦纹理被破坏，它们就完全不知道是什么了，而人类还能靠形状猜个大概。
ViT（视觉 Transformer，像“全局拼图手”）：
- 在“近郊”：它们反而和人类有点“格格不入”，虽然分很高，但犯错的方式很独特。
- 在“远郊”：它们突然变得很“像人”了！因为当细节（纹理）消失时，ViT 擅长抓整体结构，这反而和人类在极度模糊下的生存策略不谋而合。
VLM（视觉 - 语言模型，像“懂文化的博学家”）：
- 全程表现最稳：无论题目是轻微困难还是极度困难，它们和人类的犯错模式最接近。
- 原因：它们不仅看图，还“读”图（结合了语言知识）。就像人类在看不清图片时，会动用常识和语言知识去猜（比如看到模糊的一团，结合语境猜是“猫”），VLM 也有这种“语义脚手架”，所以它们最像人。

5. 结论与启示

这项研究告诉我们：

不能只看准确率：一个 AI 在正常图片上很聪明，不代表它在混乱环境下也可靠。
AI 的“性格”取决于环境：有的 AI 像“细节控”，有的像“大局观”，有的像“博学家”。在不同的困难程度下，它们的“人类相似度”会发生变化。
未来的方向：我们要造出不仅分高，而且犯错方式像人类的 AI。因为如果 AI 犯错的方式和人类一样（比如都因为看不清而猜错），那它在现实世界中就是可预测、可信任的；如果它犯错的方式很怪异（比如人类觉得是猫，它觉得是卡车，而且毫无逻辑），那它就是个不可靠的“黑盒”。

一句话总结：
这篇论文发明了一把**“人类感受尺”**，重新测量了 AI 的抗干扰能力。结果发现，没有一种 AI 在所有情况下都像人，但结合了语言知识的“博学家”型 AI（VLM）最接近人类的思维模式，而传统的 AI 在极度困难时会暴露出与人类截然不同的弱点。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment》（机器像人类一样失败吗？一种用于映射误差对齐的人本中心分布外谱）的详细技术总结。

1. 研究背景与问题 (Problem)

评估人工智能系统（特别是深度学习模型）是否以与人类相似的方式处理信息，是认知科学和可信 AI 的核心挑战。现有的评估方法存在以下主要局限性：

准确率不足以说明问题：现代 AI 模型在标准任务上已达到或超越人类准确率，但这并不保证它们的决策策略与人类一致。系统可能通过完全不同的机制犯错。
分布外（OOD）定义的偏差：
- 定义基准不同：传统 OOD 定义基于模型训练数据的统计分布，而人类没有有限的“训练分布”，而是基于终身经验。因此，对模型是 OOD 的样本，对人类未必是。
- 参数缺乏可比性：现有研究通常使用图像处理的特定参数（如低通滤波器的参数值）来定义扭曲程度。然而，不同扭曲类型（如低通 vs. 高通）的参数无法直接比较，且这些参数与人类感知难度缺乏对应关系。
- 缺乏统一标尺：直接比较不同扭曲条件下的模型 - 人类对齐度（Alignment）往往忽略了感知难度的差异，导致结论不可靠。
- 缺乏基线：直接报告对齐数值而不考虑“人类 - 人类”的对齐基线（即人类在相同条件下的内部一致性）具有误导性。

2. 方法论 (Methodology)

作者提出了一种以人为中心的偏差框架（Human-Centred Behavioral Deviation Framework），核心是将 OOD 重新定义为基于人类感知难度的连续谱系。

2.1 构建人类感知 OOD 谱系 (Constructing the Human-Centred OOD Spectrum)

数据基础：使用 modelvshuman 数据集，包含 16 个物体类别在 14 种不同扭曲类型（如噪声、高低通滤波、对比度变化等）下的 31 个模型和人类受试者的表现。
量化偏差：
- 首先将人类准确率进行 Logit 变换以满足正态分布假设。
- 定义 OOD 分数：使用 Glass's $\Delta$ 效应量来衡量扭曲条件下人类表现相对于无扭曲基准（Reference Distribution）的偏差。
- 公式： $\Delta = \frac{\bar{l}_d - \bar{l}_{ud}}{s_{ud}}$ ，其中 $\bar{l}$ 为平均 Logit 准确率， $s_{ud}$ 为无扭曲图像的标准差。
谱系划分：
- 对所有扭曲条件的 OOD 分数拟合 高斯混合模型 (GMM)。
- 识别出四个不同的感知难度区间（Regimes）：
  1. Reference (参考区)：无扭曲或轻微扭曲，人类表现接近基准。
  2. Near-OOD (近分布外)：中等难度，准确率适度下降。
  3. Far-OOD (远分布外)：高难度，性能显著下降，不同扭曲类型下降速率不同。
  4. Extreme-OOD (极端分布外)：人类表现降至随机水平（Chance level），信息不可识别（研究中通常排除此区域，因为对齐度无意义）。

2.2 误差对齐指标 (Error Alignment Metrics)

为了不仅看“是否失败”，还要看“如何失败”，使用了三个互补指标：

误差一致性 (Error Consistency, EC)：衡量两个系统（如人类 - 人类，或模型 - 人类）在相同样本上是否做出相同的正确/错误判断（基于 Cohen's Kappa）。
误分类一致性 (Misclassification Agreement, MA)：衡量当两个系统都犯错时，它们是否预测了相同的错误类别。
类别级误差发散 (Class-level Error Divergence, CLED)：用于比较不同扭曲条件或不同模型之间的误差结构相似性（基于混淆矩阵的加权 Jensen-Shannon 散度）。

3. 关键贡献 (Key Contributions)

提出了人本中心的 OOD 谱系：摒弃了基于模型训练数据或任意图像参数的 OOD 定义，转而基于人类感知难度的偏差程度来定义 OOD。这使得不同扭曲类型可以在统一的标尺上进行公平比较。
揭示了感知难度对误差结构的决定性作用：通过 CLED 分析发现，OOD 等级（难度水平）对人类误差模式结构的影响远大于扭曲类型本身。这意味着在评估模型时，必须按难度等级（Near/Far-OOD）分开评估，而非混合所有扭曲类型。
建立了人类 - 人类对齐基线：强调在评估模型 - 人类对齐度时，必须考虑人类内部的误差一致性上限，否则无法判断模型是否真正“像人类”。

4. 主要结果 (Key Results)

研究在 modelvshuman 数据集上评估了 CNN、ViT 和 VLM（视觉 - 语言模型）三大架构家族：

4.1 人类误差模式特征

Near-OOD：人类 - 人类 EC 和 MA 较高且稳定。错误主要由刺激物驱动（Stimulus-driven），即某些图像本身具有歧义性，导致不同人类受试者倾向于犯相同的错误。
Far-OOD：人类 - 人类 EC 和 MA 显著下降。错误变得更加依赖观察者（Observer-dependent），不同受试者对同一扭曲图像的反应差异增大，系统性偏差减少。

4.2 模型 - 人类对齐度的架构差异

VLMs (视觉 - 语言模型)：在 Near-OOD 和 Far-OOD 条件下均表现出最一致的人类对齐度。这表明多模态语义知识可能为模型提供了类似人类的鲁棒性，即使在视觉特征受损时也能保持决策逻辑。
CNNs (卷积神经网络)：
- Near-OOD：对齐度高于 ViT。这可能是因为 CNN 的纹理偏好（Texture Bias）在轻度扭曲下与人类利用的线索重合，或者人类在轻度扭曲下也依赖纹理线索。
- Far-OOD：对齐度急剧下降，EC 和 MA 趋近于零。表明当信息严重受损时，CNN 的表征与人类行为完全脱节。
ViTs (Vision Transformers)：
- Near-OOD：对齐度低于 CNN，尽管其标准准确率可能很高。说明 ViT 在轻度扭曲下做出了与人类不同的错误。
- Far-OOD：对齐度显著优于 CNN，与 VLM 相当。ViT 对高频纹理细节的依赖较少，使其在严重扭曲下能基于粗略信息做出更接近人类的判断。

4.3 对齐度排名的动态变化

模型的对齐度排名随 OOD 区域变化而翻转。例如，在 Near-OOD 中 CNN > ViT，而在 Far-OOD 中 ViT > CNN。这证明了单一指标或单一条件下的评估无法全面反映模型与人类认知的一致性。

5. 意义与启示 (Significance)

重新定义模型评估标准：该研究证明，仅看准确率或单一扭曲条件下的表现是不够的。必须考虑感知难度和误差模式，才能准确评估模型的认知对齐度。
揭示架构偏差的局限性：不同架构（CNN, ViT, VLM）在不同难度下表现出截然不同的“指纹”。高准确率并不等同于人类般的鲁棒性（例如 ViT 在 Near-OOD 的高准确率并未带来高对齐度）。
可信 AI 的启示：
- 可预测性：做出类似人类错误的模型在部署中更可信、更可解释，因为其失败模式符合人类直觉。
- 鲁棒性：人类视觉系统在扭曲下表现出“优雅降级”（Graceful Degradation），而许多模型（如 CNN 在 Far-OOD）表现出灾难性失败。追求人类对齐有助于构建更稳健的 AI。
未来方向：该框架为未来研究提供了标准工具，可用于测试新架构是否真正继承了人类视觉系统的归纳偏置，而不仅仅是拟合数据分布。

总结：这篇论文通过引入基于人类感知难度的 OOD 谱系，解决了现有模型 - 人类对齐评估中的方法论缺陷。研究发现，模型与人类的对齐度高度依赖于感知难度和架构类型，且 VLM 在跨难度条件下表现出最佳的一致性，而 CNN 和 ViT 的表现则随难度变化呈现互补的优劣。这为构建更可信、更符合人类认知规律的 AI 系统提供了重要的评估基准和理论依据。