Would you still call this Dax? Novel Visual References in VLMs and Humans

原作者： Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

发布于 2026-06-05✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在教一个机器人一个关于一个全新物体的全新单词。你给它看一张奇怪、发光的生物照片，并对它说：“这是一个 Dax。”接着，你开始给机器人看一些看起来略有不同的 Dax 照片：一个是模糊的，一个是倒过来的，一个是颜色不同的，还有一个多了一条手臂。

这个问题是这篇论文所探讨的：机器人在什么时候会说，“那不再是一个 Dax 了”？ 更重要的是，机器人的判断是否与人类一致？

以下是研究人员发现的简单分解：

1. “Dax”测试（实验设置）

研究人员创建了一个庞大的数据集，称为 NVRD（新颖视觉参考数据集）。你可以把它想象成一个拥有 90 个独特、虚构物体的巨大艺术画廊。

有些物体看起来像真实的东西（比如一把椅子），但被赋予了假名字（比如“blomwich”）。
有些是混合体（比如长着野猪头的烤面包机）。
有些则完全是外星产物，在现实世界中并不存在。

针对每个物体，他们创建了 20 个版本，这些版本变得越来越“糟糕”或更加扭曲。他们测试了五种不同的 AI 模型（即“机器人”）和 2,400 名人类，以观察当物体发生变化时，他们的反应是如何的。

2. “旧知识”问题

第一个重大发现是：如果 AI 已经知道某个东西是什么，它就会表现得有些挣扎。

人类类比： 如果你给一个人看一张真实的狗的照片并称其为“Dax”，他们很可能会说：“不，那是只狗。”他们对狗拥有特定的名称有着强烈的记忆。
AI 结果： AI 模型表现得类似。当物体是某种熟悉的东西（如椅子）时，AI 会拒绝学习这个新名字“Dax”，并坚持称其为“椅子”。然而，当物体是完全陌生且古怪的东西时，AI 则会乐于接受这个新名字。

3. “形状 vs 纹理”偏好

研究人员随后开始扭曲这些物体。他们改变了颜色，增加了噪声，或者完全重塑了物体的形状。

人类类比： 人类就像雕塑家。如果你拿走一个 Dax 的黏土雕像并挤压它的脸，或者折断它的手臂，我们会说：“这不再是同一个 Dax 了！”我们非常在意形状。如果你只是把它涂成蓝色，或者让它看起来像一幅画，我们仍然会说：“没错，这仍然是一个 Dax。”
AI 结果： AI 模型在这一点上与人类达成了一致！它们也同样最在意形状。如果形状改变了，AI 就不再称其为 Dax。如果仅仅是颜色或纹理发生了变化，AI 则觉得没问题。

4. “过于宽容”的机器人

这是最关键的发现。虽然 AI 和人类在“什么才是重要的”（形状）这一点上达成了一致，但他们在“变化到什么程度算过度”这一点上产生了分歧。

人类类比： 人类是很严格的。如果我们将一个 Dax 的脖子拉长直到它看起来像一只长颈鹿，我们会说：“不，那不是一个 Dax 了。”
AI 结果： AI 模型过于宽容了。即使物体被拉伸、变形或增加了额外的部分，它们仍然坚持称该物体为“Dax”。它们愿意接受比人类更广泛的怪异程度。

类比： 想象一下，人类和机器人正在玩一个游戏，你需要通过猜图来判断两张图片是否是同一种动物。

人类： “那是一只猫。而那个……是一个长了长尾巴的猫。还是猫。但那个？那是一个长着狗头的猫。不，那不是猫。”
机器人： “那是一只猫。那是长了长尾巴的猫。那是长了狗头的猫。那是长了一棵树的猫。是的，这仍然是一只猫。”

5. 为什么这很重要（根据论文所述）

论文总结道，虽然 AI 在学习新事物方面做得越来越好，但它并不具备人类那样的“常识”边界。

如果人类和 AI 在现实世界中试图就一个新物体进行交流，人类可能会认为：“这东西坏得太厉害了，不再是同一个东西了”，而 AI 则坚持认为：“不，它仍然是同一个东西。”这种不匹配可能会导致未来他们在协作时难以有效沟通。

简而言之： AI 可以学习新词汇，但它太容易放宽这些词汇的定义了，尤其是当物体看起来与原型非常不同时。

1. “Dax”测试（实验设置）

2. “旧知识”问题

3. “形状 vs 纹理”偏好

4. “过于宽容”的机器人

5. 为什么这很重要（根据论文所述）

论文技术摘要：视觉语言模型（VLMs）与人类中的新颖视觉参考

问题陈述

研究方法

关键结果

贡献与意义

Would you still call this Dax? Novel Visual References in VLMs and Humans

1. “Dax”测试（实验设置）

2. “旧知识”问题

3. “形状 vs 纹理”偏好

4. “过于宽容”的机器人

5. 为什么这很重要（根据论文所述）

论文技术摘要：视觉语言模型（VLMs）与人类中的新颖视觉参考

问题陈述

研究方法

关键结果

贡献与意义

类似论文