Exploring Open-Vocabulary Object Recognition in Images using CLIP

该论文提出了一种基于“分割后识别”两阶段策略的开放词汇目标识别框架,通过结合 CLIP 与 CNN/MLP 特征对齐及 SVD 降维技术,在无需复杂重训练和人工标注的情况下,于多个基准数据集上实现了超越现有最先进方法的训练免费识别性能。

Wei Yu Chen, Ying Dai

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种让电脑“看懂”图片中物体名称的新方法,特别是当电脑遇到它从未见过的物体时。

为了让你轻松理解,我们可以把这项技术想象成教一个刚搬进新城市的“超级侦探”如何认路

1. 以前的困境:死记硬背的“老侦探”

传统的电脑识别系统就像是一个只背过特定单词表的死板侦探

  • 问题:如果你给它看一张“长颈鹿”的照片,但它只背过“马”和“狗”的单词表,它就会一脸茫然,或者强行把它认成“马”。
  • 现状:以前的方法(如 ViLD、MaskCLIP 等)试图让侦探去背更多的单词,但这需要花费巨大的精力(昂贵的训练成本),而且一旦遇到单词表里没有的新词(比如“外星人”或“某种新型机器人”),它还是认不出来。

2. 本文的解决方案:拥有“通用词典”的新侦探

这篇论文提出了一种**“两步走”的聪明策略**,让侦探不再需要死记硬背,而是学会“查字典”和“找感觉”。

第一步:把物体“剪”下来(物体分割)

想象侦探拿到一张大照片,上面有树、人、车混在一起。

  • 做法:系统先像用剪刀一样,把照片里可能存在的物体一个个剪下来(比如把“人”单独剪成一个方块,把“披萨”剪成另一个方块)。
  • 好处:这样侦探就不用盯着整张图瞎猜,而是专注于一个个具体的“嫌疑对象”。

第二步:给物体和名字“配对”(核心创新)

这是最精彩的部分。侦探手里有两样东西:

  1. 物体的照片(剪下来的小图)。
  2. 一张无限长的“名字清单”(比如:猫、狗、长颈鹿、甚至“会飞的猪”)。

以前的方法需要重新训练侦探去认识这些名字。但本文的方法是:

  • 利用“超级翻译官”(CLIP 模型)
    我们有一个现成的、已经读过万卷书和看过万张图的“超级翻译官”(CLIP)。它能把图片文字都翻译成一种通用的“感觉代码”(Embedding)。

    • 比如,它能把“猫的照片”翻译成代码 A,把“猫”这个文字也翻译成代码 A'。
    • 因为代码 A 和 A' 非常相似,侦探就知道:哦,这张图是猫!
    • 关键点:这个“翻译官”不需要重新训练,它自带了全世界的知识。
  • 尝试“自制翻译器”(CNN/MLP 方法)
    为了不让侦探完全依赖那个昂贵的“超级翻译官”,作者还尝试教侦探自己用简单的工具(CNN+MLP)去理解图片。这就像让侦探自己学一门手艺,虽然目前还比不上“超级翻译官”那么准,但胜在灵活,以后可以不用依赖别人。

第三步:简单的“连连看”游戏(匹配)

  • 系统把“剪下来的物体照片”和“名字清单”都变成代码。
  • 然后玩一个**“连连看”**:看哪个物体的代码和哪个名字的代码最像(相似度最高)。
  • 如果相似度很高,就判定为这个名字;如果都不像,就说是“其他东西”。

3. 实验结果:什么最好用?

作者做了很多测试(在 COCO、VOC 等数据集上),发现了一些有趣的现象:

  • 冠军方案直接用“超级翻译官”(CLIP)+ 不玩复杂的数学游戏(不用 SVD)
    • 比喻:就像侦探直接拿着最好的字典去查,不需要搞什么复杂的“数据压缩”或“去噪”处理。结果发现,越简单越有效!这种方法不需要重新训练,就能打败很多需要复杂训练的“老前辈”。
  • 关于 SVD(奇异值分解)
    • 作者尝试用一种叫 SVD 的数学工具来“提炼”精华,去掉噪音。
    • 结果:这就像给侦探戴上了一副“滤镜”。虽然有时候能让他看到更多(召回率高了),但也让他把“像猫的狗”误认成猫(准确率低了)。总的来说,不加滤镜反而更准
  • 关于“自制翻译器”(MLP)
    • 虽然目前不如直接用“超级翻译官”准,但它证明了不依赖大模型也能做这件事。只要给侦探足够的练习(在特定数据集上微调),未来它可能变得非常强大,甚至不需要依赖那个昂贵的“超级翻译官”。

4. 总结:这篇论文到底说了什么?

简单来说,这篇论文告诉我们:
让电脑识别新物体,不需要把它关起来“苦读”(重新训练),也不需要搞复杂的“大脑改造”(复杂架构)。

只要利用现有的、已经学富五车的“超级翻译官”(CLIP),把图片里的物体剪出来,然后直接和文字名字做**“找朋友”**的游戏,就能达到甚至超过那些需要巨额训练成本的最先进方法。

核心启示:有时候,“借力”(利用预训练模型)比“硬造”(从头训练)更聪明、更高效。