When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

本文提出了一种基于面孔错觉(pareidolia)的表征级诊断框架,通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现,揭示了不同模型架构(如视觉语言模型、纯视觉分类器及检测器)在歧义情境下截然不同的解释机制,表明模型在模糊条件下的行为主要受表征选择而非阈值控制,且低不确定性既可能源于安全抑制也可能源于过度解读。

Qianpu Chen, Derya Soydaner, Rob Saunders

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 视觉系统做一场"心理体检",专门检查它们在看不清、模棱两可的时候,到底会怎么“想”。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场"找脸游戏"。

1. 什么是“幻视”(Pareidolia)?

想象一下,你看着墙上的一个电源插座,突然觉得它像一张脸:两个插孔是眼睛,下面的开关是嘴巴。

  • 人类:有时候会觉得像,有时候觉得不像。这取决于你的心情、你的想象力,或者别人指给你看之后。
  • AI:当它看到这种“不像脸又像脸”的东西时,它会怎么反应?它会坚定地认为“这是人脸”吗?还是它会犹豫地说“我不确定”?

这篇论文就是拿这些“电源插座脸”、“云朵脸”、“树洞脸”来测试不同的 AI 模型,看看它们在证据不足时,是太自信了,还是太谨慎了。

2. 他们测试了哪几种 AI?

研究人员找了六款不同的 AI,把它们分成了三类“性格”:

  • 第一类:全能型“语言 + 视觉”大师(VLMs,如 CLIP, LLaVA)

    • 比喻:就像是一个读过很多书、看过很多电影,但有点“想太多”的艺术家
    • 表现:它们脑子里有一个强烈的“人脸”概念。只要看到一点点像脸的东西(比如两个黑点),它们就会立刻大喊:“这是人脸!而且我还敢打赌这是‘生气’的人脸!”
    • 结果:它们太自信了,经常把不是脸的东西强行认成脸,尤其是当那些东西看起来有点“悲伤”或“愤怒”时,它们更容易“脑补”出人脸。
  • 第二类:纯视觉“观察员”(ViT)

    • 比喻:就像一个谨慎的侦探
    • 表现:看到模糊的东西,它不会急着下结论。它会说:“嗯,这有点像脸,但也可能是别的。我不确定。”
    • 结果:它很少乱认脸。因为它不确定,所以它不会犯错。它选择“存疑”,而不是“瞎猜”。
  • 第三类:专业“找脸警察”(YOLO, RetinaFace)

    • 比喻:就像是一个只认真人的保安
    • 表现:它们受过严格训练,只找真正的人脸。如果看到电源插座,保安会想:“这绝对不是人,别想骗我。”
    • 结果:它们几乎从不认错。哪怕那个插座长得再像脸,保安也会因为“这不是真的人”而直接忽略。

3. 论文发现了什么惊人的秘密?

这篇论文最大的发现是打破了我们的一个常识:“自信”不等于“正确”

  • 旧观念:如果一个 AI 非常自信(比如 LLaVA 说“我 99% 确定这是人脸”),那它应该是对的。
  • 新发现
    • LLaVA(全能艺术家)非常自信,但它错得最离谱。它把电源插座当成人脸,还自信地说是“生气的脸”。
    • RetinaFace(保安)也很自信(它确定“这不是人脸”),但它是对的,因为它守住了底线。
    • ViT(侦探)很犹豫(不确定),但它也没错,因为它没有乱认。

结论:在模糊的情况下,AI 的“自信程度”并不能告诉我们它是否安全。有的 AI 越自信,越容易瞎编;有的 AI 越犹豫,反而越安全。

4. 为什么这很重要?

想象一下未来的应用场景:

  • 医院:AI 在看 X 光片,如果它把一块模糊的阴影自信地当成“肿瘤”(就像把插座当成脸),病人可能会接受不必要的手术。
  • 监控:如果 AI 把墙上的污渍自信地当成“通缉犯”,警察可能会白跑一趟。

这篇论文告诉我们,不能只看 AI 说“我很有把握”就相信它。我们需要检查 AI 的底层逻辑

  • 是因为它太想看到人脸(像 LLaVA 那样),所以产生了幻觉?
  • 还是因为它太谨慎(像保安那样),所以漏掉了真的人脸?

5. 总结:给 AI 的“体检报告”

这篇论文就像给 AI 做了一次压力测试。它发现:

  1. 会说话的 AI(VLMs)容易“过度解读”,把什么都看成人脸,尤其是负面的情绪。
  2. 纯视觉的 AI(ViT)通过“不确定”来避免犯错。
  3. 专业检测 AI(Detectors)通过“死板的原则”来避免犯错。

最终启示
如果我们想让 AI 更安全,不能只靠调高或调低它的“自信阈值”(比如让它少说点“我确定”)。我们需要从根本上改变它的思维方式,教它在证据不足时学会“闭嘴”或者“存疑”,而不是盲目地“脑补”。

这就好比,我们不仅要教 AI 认脸,还要教它什么时候该承认自己“看不清”