Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

本文提出了一种由视觉语言模型(VLM)引导的级联框架,通过利用 VLM 特征作为提示来指导 Segment Anything Model 进行精准分割,并将分割结果作为软空间先验保留全图上下文以消除域差距,从而有效解决了开放词汇伪装物体分割中的视觉模糊与未见类别分类难题。

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COCUS 的新方法,专门用来解决计算机视觉中一个非常棘手的难题:“伪装物体分割”(Camouflaged Object Segmentation),而且还要能识别出从未见过的物体类别

为了让你轻松理解,我们可以把这项技术想象成**“在茂密的森林里寻找一只伪装成树叶的变色龙”**。

1. 核心难题:为什么这很难?

想象一下,你被蒙住眼睛扔进一片森林,有人告诉你:“找一只变色龙。”

  • 普通任务(传统分割): 就像找一只红色的苹果。苹果和树叶颜色反差大,一眼就能看出来。
  • 伪装任务(COS): 变色龙完美地融入了树叶,颜色、纹理几乎一样。普通的“找东西”程序(就像没受过专业训练的猎人)很容易看走眼,要么把整棵树都当成变色龙,要么完全看不见它。
  • 开放词汇任务(OVCOS): 更糟糕的是,你不仅要在树叶里找变色龙,还要找从未见过的动物,比如“一只伪装成石头的青蛙”或者“一只伪装成沙子的螃蟹”。你以前没见过它们,不知道它们长什么样,只能靠文字描述(比如“青蛙”)来猜。

以前的方法有两个大问题:

  1. 找不准: 普通的“找东西”模型习惯了找明显的物体(像苹果),面对伪装物体时,它们看不清边缘,找得歪歪扭扭。
  2. 认不出: 以前的方法通常是先把物体“剪下来”(裁剪),再扔给一个“大百科”(视觉语言模型,如 CLIP)去认。但这就像把变色龙从树上硬剪下来,背景全没了,大百科就懵了,因为它是在看整张图时学的,突然只给一小块,它就认不出来了。

2. 我们的新方案:COCO 侦探事务所

这篇论文提出了一个**“两步走”**的聪明策略,就像派出了两位配合默契的侦探:

第一步:带“翻译官”的超级猎人(改进的 SAM)

  • 角色: 我们有一个超级猎人叫 SAM(Segment Anything Model),它本来很擅长找东西,但面对伪装物体有点笨。
  • 升级: 我们给它配了一个**“翻译官”(CLIP 模型)**。
    • 当你说“找变色龙”时,翻译官不仅把这句话变成文字,还能把“变色龙”的概念变成视觉信号(比如:绿色的、有斑点的、像叶子一样的)。
    • 猎人 SAM 拿着这些信号,就像拿着**“寻宝地图”**。它不再盲目地看,而是专门盯着那些“看起来像叶子但又不完全是叶子”的奇怪区域。
  • 绝招: 我们给猎人装了一副**“边缘增强眼镜”**。因为伪装物体的边缘很模糊,这副眼镜能帮它把轮廓勾勒得更清晰,就像用高亮笔把模糊的影子描边一样。

第二步:不剪切的“透视眼”分类(软空间引导)

  • 旧做法的坑: 以前的方法是把找到的物体“剪下来”给大百科看。这就像把变色龙从树上硬扯下来,大百科就认不出了。
  • 我们的做法: 我们不剪下来
    • 我们让大百科(CLIP)看着整张森林图,但是给它戴上一副**“透视眼镜”**(Alpha 通道)。
    • 这副眼镜会让大百科的注意力聚焦在猎人刚才圈出的那个区域,同时保留周围的背景信息。
    • 比喻: 就像你在看全景图时,有人用手指着那个区域说:“嘿,重点看这里!”这样大百科既看到了重点,又没丢掉背景线索,能更准确地猜出:“哦,这原来是一只伪装成石头的青蛙!”

3. 为什么这个方法很牛?

  1. 懂行(语义引导): 猎人不再是瞎找,而是根据“文字描述”去主动寻找,就像你告诉猎人“找绿色的”,它就不会去找红色的。
  2. 看得清(边缘增强): 专门针对模糊的边界做了优化,能把伪装得很好的物体“抠”得很干净。
  3. 不丢背景(软引导): 分类时不切断背景,保留了物体和环境的关系,让“大百科”能结合上下文猜得更准。

4. 总结

这就好比以前我们是用**“盲人摸象”**的方式去识别伪装动物(要么摸不准,要么切下来认),而这篇论文的方法是:

  1. 先给猎人一张**“带线索的地图”**,让它精准地圈出目标。
  2. 再给专家一副**“聚焦眼镜”**,让他看着整张图,但只重点分析圈出来的部分,同时保留环境线索。

实验证明,这套组合拳在识别各种伪装物体(无论是见过的还是没见过的)上,都取得了目前最好的成绩。它让计算机不仅能“看见”伪装,还能真正“理解”伪装。