Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

针对现有零样本伪装物体分割方法中仅依赖多模态大模型进行物体发现所导致的定位不准等问题,本文提出了一种无需训练且包含特征相干物体发现、SAM 分割及语义驱动掩码选择三个阶段的渐进式 DSS 框架,在多个基准测试中取得了最先进的性能。

Yilong Yang, Jianxin Tian, Shengchuan Zhang, Liujuan Cao

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 DSS(发现 - 分割 - 选择)的新方法,专门用来解决计算机视觉中一个非常棘手的难题:“伪装物体分割”

想象一下,你正在玩“找茬”游戏,或者在茂密的草丛里找一只保护色极好的变色龙。传统的电脑很难做到这一点,因为它们需要大量的人工标注数据来学习。而这篇文章提出了一种**“零样本”**(Zero-shot)的方法,意思是电脑不需要专门学习,就能像人一样直接认出这些伪装者。

为了让你更容易理解,我们可以把整个过程想象成**“在茫茫人海中寻找一个戴着面具的嫌疑人”**。

1. 以前的做法:靠“直觉”猜(容易出错)

以前的方法(两阶段法)大概是这样的:

  • 第一步(发现): 让一个超级聪明的 AI 助手(大语言模型,MLLM)看图,问它:“嫌疑人大概在哪里?”AI 助手根据文字描述猜一个位置,画个框。
  • 第二步(分割): 把这个框交给另一个专业的“切割工”(SAM 模型),让它把框里的东西切出来。

问题出在哪?
这就好比让一个只懂理论的大教授去猜嫌疑人位置。教授可能知道“嫌疑人穿着红衣服”,但看到满街红衣服的人,他可能会指错方向,或者漏掉躲在角落的。一旦第一步指错了,后面的切割工切出来的也是错的。特别是在**“多个人混在一起”**(多实例场景)时,教授很容易只盯着最显眼的一个,把其他的都漏了。

2. 新的 DSS 方法:三步走的“侦探团队”

这篇论文提出的 DSS 方法,不再只依赖那位“教授”的直觉,而是组建了一个三人侦探小队,分三步走:

第一步:发现(Discover)—— 用“物理特征”找线索

  • 角色: 一个拥有“火眼金睛”的初级侦探(FOD 模块)。
  • 做法: 这个侦探不看文字描述,而是直接观察图片的纹理、颜色和形状(视觉特征)。它把图片切成无数小块,像拼图一样,把看起来“很像”的碎片聚在一起(聚类)。
  • 创新点(PC 模块): 有时候,伪装者被切得太碎了(比如一只变色龙被分成了好几块)。这个侦探会把这些碎片重新拼凑起来,确保它们是一个完整的整体。
  • 创新点(SBG 模块): 为了不错过任何一个嫌疑人,它还会计算“相似度地图”。就像在人群里,如果一个人和周围的环境特别“格格不入”或者特别“和谐”,它都能敏锐地捕捉到,并画出包围圈。
  • 比喻: 就像在森林里,你不仅听声音(语言),还看树叶的晃动、影子的形状,甚至把散落的脚印拼成完整的足迹,从而圈出所有可能藏人的区域。

第二步:分割(Segment)—— 专业的“切割工”干活

  • 角色: 那个专业的切割工(SAM 模型)。
  • 做法: 现在,初级侦探已经画好了好几个高质量的“包围圈”(候选框),切割工就负责在这些圈里进行精细的切割,把嫌疑人的轮廓精准地抠出来。
  • 结果: 因为输入的质量高了,切割工这次切出来的轮廓非常精准,而且不会漏掉那些躲在暗处的嫌疑人。

第三步:选择(Select)—— 最终裁决的“大法官”

  • 角色: 那个超级聪明的教授(MLLM),但这次它的角色变了。
  • 做法: 现在切割工切出了好几个版本(比如切大了、切小了、切歪了)。大法官不再负责“找位置”,而是负责**“挑最好的”**。它会看着这几个切好的图,结合原图,问自己:“哪一个看起来最像我们要找的伪装者?”
  • 比喻: 就像法官看着几个嫌疑人的画像,排除掉画得不像的,选出最符合特征的那一个。

3. 为什么这个方法很厉害?

  • 不再“盲人摸象”: 以前的方法太依赖大模型的“语言直觉”,容易猜错。DSS 方法先用“视觉特征”把路铺好,再让大模型做最后的判断,互补了彼此的短板
  • 擅长“一锅端”: 在有很多个伪装者混在一起的时候(比如草丛里有一群变色龙),以前的方法容易漏掉几个,而 DSS 能一个都不漏,全部找出来。
  • 不用“死记硬背”: 它不需要提前学习成千上万张伪装图,拿到新图就能直接干,非常灵活。

总结

简单来说,这篇论文就是给电脑装了一套**“先观察细节、再动手切割、最后由专家把关”**的聪明流程。

它不再盲目相信“谁说得对”,而是相信“谁看得准”。通过这种**“发现 - 分割 - 选择”**的渐进式机制,电脑现在能像人类一样,在复杂的背景中,精准地把那些“隐身”的物体给揪出来了。这对于医疗诊断(找肿瘤)、自动驾驶(识别路边的动物)和军事侦察等领域,都有着巨大的实用价值。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →