GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

本文提出了 GenCLIP 框架,通过多层提示机制融合多尺度视觉特征、采用双分支推理策略平衡泛化性与特异性,并引入自适应文本过滤机制,从而显著提升了 CLIP 在未见类别上的零样本异常检测性能。

Donghyeong Kim, Chaewon Park, Suhwan Cho, Hyeonjeong Lim, Minseok Kang, Jungho Lee, Sangyoun Lee

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一家大型工厂的质量检查员。你的工作是在传送带上找出所有有瑕疵的产品。

传统的做法是:你只接受过“检查螺丝”的培训。现在,传送带上来了一个“螺丝”,你一眼就能看出它是不是坏的。但如果来了一个你从未见过的“奇怪形状的金属块”,你就完全懵了,因为你不知道它长什么样才算“正常”,更不知道什么样算“坏”。

以前的 AI 方法(比如 WinCLIP)就像是一个读过很多书但没受过专门训练的实习生。它认识各种东西,也知道“坏”和“好”的概念,但因为它没专门学过怎么在工厂里找瑕疵,所以它经常把正常的纹理误认为是瑕疵,或者漏掉真正的坏东西。

以前的改进方法(比如 AnomalyCLIP 或 AdaCLIP)试图教这个实习生一些通用的口诀(比如“这是一个好物体”或“这是一个坏物体”)。但这有个问题:如果口诀太通用,它抓不住细节;如果口诀太具体(比如“这是一个好螺丝”),那遇到新东西(比如“好金属块”)时又不管用了。


🌟 GenCLIP:给 AI 装上了“超级眼镜”和“双脑思维”

这篇论文提出的 GenCLIP,就像给这位实习生升级了一套超级装备,让它既能看懂新东西,又能精准找茬。它主要做了三件聪明的事:

1. 多层级“透视眼” (Multi-layer Prompting)

以前的 AI 看图片,可能只盯着最上面的一层(比如只看物体的轮廓)。但 GenCLIP 不一样,它像是一个拥有X 光透视眼的专家。

  • 比喻:想象你在看一个苹果。
    • 第一层眼睛看到的是:红色的、圆圆的(低层特征,像纹理、边缘)。
    • 中间层眼睛看到的是:这是一个水果,不是石头(中层特征,像形状、结构)。
    • 最顶层眼睛看到的是:这是一个好吃的苹果(高层特征,像语义概念)。
  • GenCLIP 的做法:它同时打开这所有层的眼睛,把看到的细节(纹理、形状、概念)全部打包,塞进那句“好/坏物体”的通用口诀里。
  • 效果:这样,当它看到一个从未见过的“金属块”时,它不仅能认出这是个金属块,还能敏锐地察觉到金属表面细微的划痕(纹理)或奇怪的弯曲(形状),因为它“看”得比别人更透彻。

2. “双脑”协作模式 (Dual-Branch Inference)

这是 GenCLIP 最天才的地方。它不像以前那样只靠一个大脑思考,而是让两个大脑同时工作,然后投票决定。

  • 大脑 A(视觉增强脑)
    • 任务:它盯着眼前的图片,结合刚才说的“透视眼”看到的细节,去匹配“好/坏”的概念。
    • 特点:非常敏锐,能发现具体的、细微的瑕疵。
    • 小插曲:如果图片上的名字太奇怪(比如叫"02 号零件”而不是“螺丝”),大脑 A 会启动一个**“过滤器” (CNF)**,自动把名字改成通用的“物体”,防止被奇怪的名字带偏。
  • 大脑 B(纯通用脑)
    • 任务:它不看具体的图片细节,也不管物体叫什么名字。它只依靠训练时学到的最纯粹的“好”与“坏”的感觉
    • 特点:非常稳健,专门用来抓那些“看起来不像任何已知类别,但就是不对劲”的异常(Outliers)。
  • 最终决策:两个大脑把结果结合起来。如果大脑 A 说“这里有划痕”,大脑 B 说“整体感觉不对劲”,那就100% 确定是坏品。这种互补让 AI 既不会漏掉细节,也不会因为太死板而误判。

3. 智能“去噪”过滤器 (Class Name Filtering)

在工厂里,有些零件的名字很乱,比如叫"Pipe_fryum"或者"PCB1"。AI 如果死记硬背这些名字,可能会困惑。

  • 比喻:就像你让一个外国人找“红色的苹果”,但他手里拿着一张写着"Red_Apple_001"的纸条。他可能会因为"001"这个后缀而困惑。
  • GenCLIP 的做法:在检查之前,它会先问自己:“这个名字真的能描述这个物体吗?”如果不能(比如名字太乱或太抽象),它就自动把名字替换成最通用的词——"物体 (Object)"。
  • 效果:这确保了 AI 关注的是东西长什么样,而不是它叫什么名字,大大减少了误判。

🏆 结果如何?

经过在 6 个不同的工业数据集(包括螺丝、电路板、布料等各种东西)上的测试,GenCLIP 就像是一个全能冠军

  1. 看得更准:它能发现以前 AI 漏掉的微小划痕或变形。
  2. 适应力更强:以前没见过的物体类别,它也能轻松应对,不需要重新培训。
  3. 更稳定:即使名字很乱,或者物体很特殊,它也能保持高准确率。

总结一下
GenCLIP 就是给 AI 装上了一套多层次的透视眼镜,让它拥有了两个互补的大脑(一个看细节,一个看整体),并且学会了忽略混乱的名字,只关注物体本身的“好坏”本质。这让它在面对从未见过的工业产品时,也能像老练的质检员一样,精准地找出所有瑕疵。