TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

本文提出了 TokenCLIP,一种通过最优传输动态将视觉令牌分配至正交文本子空间以实现细粒度对齐的框架,从而显著提升了零样本异常检测的性能。

Qihang Zhou, Binbin Gao, Guansong Pang, Xin Wang, Jiming Chen, Shibo He

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TokenCLIP 的新方法,旨在让计算机更聪明地“找茬”(即异常检测),而且不需要事先见过这种“茬”长什么样(即零样本能力)。

为了让你轻松理解,我们可以把这项技术想象成招聘一群“超级侦探”来检查工厂里的产品

1. 以前的做法:一个“万金油”侦探的困境

想象一下,你是一家大工厂的质检主管。以前,你只雇佣了一位全能侦探(这就是以前的方法,比如 AnomalyCLIP)。

  • 任务:这位侦探要检查各种各样的东西:地毯上的裂缝、脑部的肿瘤、螺丝上的划痕、甚至手机屏幕的碎裂。
  • 问题:这位侦探手里只有一本通用的《异常手册》。当他看到地毯裂缝时,他得用手册里关于“地毯”的章节;看到脑部肿瘤时,又得翻到“医学”章节。
  • 后果:因为这本手册太“大杂烩”了,为了照顾所有情况,它变得很模糊。侦探在判断“地毯裂缝”时,可能会受到“脑部肿瘤”定义的干扰,导致他要么漏掉了细微的裂缝,要么把正常的纹理误报为异常。这就是论文里说的**“ indiscriminate alignment"(无差别的对齐)**——用一个通用的标准去衡量所有不同的东西,结果就是“样样通,样样松”。

2. TokenCLIP 的妙招:组建“特种部队”

TokenCLIP 觉得这样不行,于是它换了一种思路:不再雇佣一个全能侦探,而是组建一支由不同专长侦探组成的“特种部队”(即多个正交文本子空间)。

  • 特种部队成员
    • 侦探 A:专门负责看“物体本身”(比如螺丝、药丸的形状)。
    • 侦探 B:专门负责看“背景环境”(比如地板、墙壁的纹理)。
    • 侦探 C:专门负责看“细微的纹理变化”(比如裂纹、划痕)。
    • 他们每个人都有一本非常专业、非常具体的《异常手册》。

3. 核心黑科技:智能调度系统(最优传输 OT)

现在问题来了:当一张图片(比如一张有裂缝的地毯)进来时,怎么决定让哪个侦探去检查哪一块区域呢?

以前的方法是“一刀切”,所有区域都让同一个侦探看。TokenCLIP 引入了一个智能调度系统(论文里称为最优传输,Optimal Transport):

  • 动态分配:系统会实时分析图片的每一个小像素块(Token)。
    • 看到“螺丝”部分?系统立刻把这块区域分配给侦探 A
    • 看到“背景地板”部分?系统立刻把这块区域分配给侦探 B
    • 看到“裂缝”部分?系统立刻把这块区域分配给侦探 C
  • 数学魔法(最优传输):这个调度过程不是乱来的,而是通过一种数学方法(最优传输),确保:
    1. 每个侦探都忙得过来(边际约束):不让某个侦探闲着,也不让某个侦探累死,保证大家都得到充分的训练。
    2. 大家分工明确(最小成本):强迫侦探们去抓自己最擅长的那类异常,避免大家抢着干同一件事,或者干不擅长的事。

4. 为什么这样更厉害?

  • 更精准:就像让眼科医生看眼睛,让牙医看牙齿一样,TokenCLIP 让每个“文本子空间”(侦探)只专注于自己最擅长的领域,所以能发现以前看不见的细微异常(比如极细的裂纹)。
  • 不费脑子:虽然侦探多了,但 TokenCLIP 很聪明,它不需要为每一个像素点都雇佣一个新的侦探(那样太贵了)。它只是让现有的几个专家通过“组合拳”来工作。
  • 稀疏化(Top-K):系统还会做减法,只让最相关的 2-3 个侦探参与决策,去掉那些不相关的,这样效率更高。

5. 实验结果:真的好用吗?

论文在两个领域做了大量测试:

  1. 工业界:检查各种工业产品(如螺丝、药丸、地毯)的缺陷。
  2. 医疗界:检查医学影像(如脑部 MRI、皮肤癌、息肉)。

结果显示,TokenCLIP 就像一位经验丰富的老工头,比以前的“万金油”侦探(其他现有方法)找出了更多、更细微的毛病,而且还没怎么增加额外的计算成本。

总结

TokenCLIP 的核心思想就是:拒绝“一刀切”,拥抱“因材施教”。

它不再试图用一个通用的标准去衡量所有异常,而是通过动态分配,让不同的“专家”去处理图片中不同性质的区域。这就好比把“大杂烩”变成了“分餐制”,让每个部分都能吃到最适合自己的“营养”,从而让计算机在发现异常时更加敏锐和精准。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →