GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

想象一下，你是一家大型工厂的质量检查员。你的工作是在传送带上找出所有有瑕疵的产品。

传统的做法是：你只接受过“检查螺丝”的培训。现在，传送带上来了一个“螺丝”，你一眼就能看出它是不是坏的。但如果来了一个你从未见过的“奇怪形状的金属块”，你就完全懵了，因为你不知道它长什么样才算“正常”，更不知道什么样算“坏”。

以前的 AI 方法（比如 WinCLIP）就像是一个读过很多书但没受过专门训练的实习生。它认识各种东西，也知道“坏”和“好”的概念，但因为它没专门学过怎么在工厂里找瑕疵，所以它经常把正常的纹理误认为是瑕疵，或者漏掉真正的坏东西。

以前的改进方法（比如 AnomalyCLIP 或 AdaCLIP）试图教这个实习生一些通用的口诀（比如“这是一个好物体”或“这是一个坏物体”）。但这有个问题：如果口诀太通用，它抓不住细节；如果口诀太具体（比如“这是一个好螺丝”），那遇到新东西（比如“好金属块”）时又不管用了。

🌟 GenCLIP：给 AI 装上了“超级眼镜”和“双脑思维”

这篇论文提出的 GenCLIP，就像给这位实习生升级了一套超级装备，让它既能看懂新东西，又能精准找茬。它主要做了三件聪明的事：

1. 多层级“透视眼” (Multi-layer Prompting)

以前的 AI 看图片，可能只盯着最上面的一层（比如只看物体的轮廓）。但 GenCLIP 不一样，它像是一个拥有X 光透视眼的专家。

比喻：想象你在看一个苹果。
- 第一层眼睛看到的是：红色的、圆圆的（低层特征，像纹理、边缘）。
- 中间层眼睛看到的是：这是一个水果，不是石头（中层特征，像形状、结构）。
- 最顶层眼睛看到的是：这是一个好吃的苹果（高层特征，像语义概念）。
GenCLIP 的做法：它同时打开这所有层的眼睛，把看到的细节（纹理、形状、概念）全部打包，塞进那句“好/坏物体”的通用口诀里。
效果：这样，当它看到一个从未见过的“金属块”时，它不仅能认出这是个金属块，还能敏锐地察觉到金属表面细微的划痕（纹理）或奇怪的弯曲（形状），因为它“看”得比别人更透彻。

2. “双脑”协作模式 (Dual-Branch Inference)

这是 GenCLIP 最天才的地方。它不像以前那样只靠一个大脑思考，而是让两个大脑同时工作，然后投票决定。

大脑 A（视觉增强脑）：
- 任务：它盯着眼前的图片，结合刚才说的“透视眼”看到的细节，去匹配“好/坏”的概念。
- 特点：非常敏锐，能发现具体的、细微的瑕疵。
- 小插曲：如果图片上的名字太奇怪（比如叫"02 号零件”而不是“螺丝”），大脑 A 会启动一个**“过滤器” (CNF)**，自动把名字改成通用的“物体”，防止被奇怪的名字带偏。
大脑 B（纯通用脑)：
- 任务：它不看具体的图片细节，也不管物体叫什么名字。它只依靠训练时学到的最纯粹的“好”与“坏”的感觉。
- 特点：非常稳健，专门用来抓那些“看起来不像任何已知类别，但就是不对劲”的异常（Outliers）。
最终决策：两个大脑把结果结合起来。如果大脑 A 说“这里有划痕”，大脑 B 说“整体感觉不对劲”，那就100% 确定是坏品。这种互补让 AI 既不会漏掉细节，也不会因为太死板而误判。

3. 智能“去噪”过滤器 (Class Name Filtering)

在工厂里，有些零件的名字很乱，比如叫"Pipe_fryum"或者"PCB1"。AI 如果死记硬背这些名字，可能会困惑。

比喻：就像你让一个外国人找“红色的苹果”，但他手里拿着一张写着"Red_Apple_001"的纸条。他可能会因为"001"这个后缀而困惑。
GenCLIP 的做法：在检查之前，它会先问自己：“这个名字真的能描述这个物体吗？”如果不能（比如名字太乱或太抽象），它就自动把名字替换成最通用的词——"物体 (Object)"。
效果：这确保了 AI 关注的是东西长什么样，而不是它叫什么名字，大大减少了误判。

🏆 结果如何？

经过在 6 个不同的工业数据集（包括螺丝、电路板、布料等各种东西）上的测试，GenCLIP 就像是一个全能冠军：

看得更准：它能发现以前 AI 漏掉的微小划痕或变形。
适应力更强：以前没见过的物体类别，它也能轻松应对，不需要重新培训。
更稳定：即使名字很乱，或者物体很特殊，它也能保持高准确率。

总结一下：
GenCLIP 就是给 AI 装上了一套多层次的透视眼镜，让它拥有了两个互补的大脑（一个看细节，一个看整体），并且学会了忽略混乱的名字，只关注物体本身的“好坏”本质。这让它在面对从未见过的工业产品时，也能像老练的质检员一样，精准地找出所有瑕疵。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

零样本异常检测 (ZSAD) 旨在利用预训练模型（如 CLIP）的零样本能力，在未见过的类别中识别异常。尽管 CLIP 具有强大的泛化能力，但直接将其应用于工业异常检测面临以下核心挑战：

通用性与特异性的平衡难题：
- 现有的提示学习（Prompt Learning）方法往往陷入两难：要么使用过于通用的查询提示（Query Prompts），导致无法捕捉特定类别的细微特征（如 AnomalyCLIP）；要么依赖动态提示（Dynamic Prompts）结合类别 Token，导致在推理时静态提示与动态提示纠缠，影响稳定性（如 AdaCLIP）。
CLIP 模型的局限性：
- CLIP 并非专为异常检测设计，其文本嵌入难以在缺乏特定类别标签的情况下，有效区分正常与异常图像。
- 工业场景中的类别名称往往不规范（如 "pcb2", "pipe_fryum" 或纯数字编号），直接输入会导致语义对齐失败，引入噪声。
过拟合风险：
- 在辅助数据集上训练时，如果过度依赖单一层级的视觉特征或特定类别的提示，模型容易过拟合，难以泛化到未见过的物体类别。

2. 方法论 (Methodology)

作者提出了 GenCLIP 框架，通过多层提示 (Multi-layer Prompting) 和 双分支推理 (Dual-branch Inference) 策略，有效解决了上述问题。

2.1 核心架构

GenCLIP 基于 CLIP 的视觉编码器和文本编码器，但引入了可学习的提示机制：

输入模板："A photo of a [state] [cls] [QP]"，其中 [state] 为正常/异常状态，[cls] 为类别，[QP] 为可学习的查询提示。
参数设置：包含特定于状态的提示（ $N_P$ 正常， $A_P$ 异常）和共享的查询提示（ $Q_P$ ）。

2.2 关键技术模块

多层视觉提示 (Multi-layer Vision Prompting, MVP)：
- 机制：从 CLIP 视觉编码器的多个中间层提取视觉特征（Patch Features），通过 MLP 投影生成视觉提示 Token ( $V^i_P$ )。
- 作用：将这些多层视觉特征注入到共享的查询提示 ( $Q_P$ ) 中，形成增强的提示 $V^i_Q = Q_P + V^i_P$ 。
- 优势：不仅利用了高层语义，还保留了低层纹理和边缘信息。这种融合增强了通用提示的鲁棒性，防止过拟合，同时丰富了文本嵌入的语义上下文。
自适应文本提示过滤 (Class Name Filtering, CNF)：
- 问题：工业数据集中常出现无意义的类别名（如 "02", "fryum"）。
- 机制：在推理阶段（仅视觉增强分支），计算输入图像与“原始类别名”及通用词“object"的相似度。如果图像与通用词“object"的相似度更高，则自动将类别名替换为"object"。
- 作用：去除噪声，确保文本提示在 CLIP 的语义空间中具有实际意义，提升图文对齐质量。
双分支推理策略 (Dual-branch Inference)：
为了平衡“类别特异性”与“通用泛化性”，GenCLIP 在推理时并行运行两个分支：
- 视觉增强分支 (Vision-enhanced Branch)：
  - 结合多层视觉提示 ( $V^i_P$ ) 和经过 CNF 处理的类别名。
  - 捕捉细粒度的、特定于类别的异常特征。
- 仅查询分支 (Query-only Branch)：
  - 不使用视觉特征和具体类别名，仅使用通用的查询提示 ( $Q_P$ ) 和通用词 "object"。
  - 旨在学习跨类别的通用正常/异常模式，专门用于识别那些类别信息无益的离群点（Outliers）。
- 融合：最终异常分割图 ( $S_{seg}$ ) 是两分支输出的加权求和，结合了两者的优势。

2.3 训练与优化

损失函数：结合 Focal Loss 和 Dice Loss，处理正负样本不平衡问题。
训练过程：冻结 CLIP 主干，仅训练提示 Token 和投影层。利用辅助数据集（如 MVTec）训练，但在推理时可直接应用于未见类别。

3. 主要贡献 (Key Contributions)

多层提示机制 (Multi-layer Prompting)：
- 创新性地从 CLIP 视觉编码器的多个层级提取特征并注入文本提示，解决了单一层级特征信息不全的问题，显著提升了文本嵌入的鲁棒性和泛化能力。
新颖的双分支推理策略：
- 提出了“视觉增强”与“仅查询”并行的推理架构。前者利用视觉上下文捕捉细粒度特征，后者利用通用提示捕捉跨类别的异常模式，两者互补，显著提高了检测的稳定性。
自适应文本过滤 (CNF)：
- 提出了一种针对工业场景的类别名过滤机制，自动处理不规范或无意义的类别标签，解决了工业数据中常见的语义对齐难题。
SOTA 性能：
- 在 6 个工业基准数据集（MVTec-AD, VisA, MPDD, BTAD, SDD, DTD-Synthetic）上进行了验证，性能全面超越现有最先进方法（如 WinCLIP, AnomalyCLIP, AdaCLIP）。

4. 实验结果 (Results)

GenCLIP 在像素级（Pixel-level）和图像级（Image-level）指标上均取得了显著提升：

像素级异常分割：
- 在 MVTec-AD 上，Pixel-level AUROC 达到 92.7% (比次优提升 1.6%)，PRO 达到 88.1% (比次优提升 6.7%)。
- 在 VisA 上，Pixel-level AUROC 达到 95.3%，PRO 达到 89.3%。
- 在 MPDD 和 SDD 等数据集上也均取得了最高分。
图像级异常检测：
- 在多个数据集上保持了极高的 AUROC 和 AP 分数，证明了模型不仅能定位异常，还能准确判断整张图像是否异常。
消融实验：
- 验证了多层提示（MVP）比仅使用最终层特征更有效。
- 证明了双分支策略（MVP + GQP）优于单一分支。
- 证实了 CNF 机制在处理模糊类别名（如 "fryum", "pcb1"）时能显著提升性能。

5. 意义与影响 (Significance)

工业应用价值：GenCLIP 解决了工业异常检测中“标注数据稀缺”和“类别多样”的痛点。它能够在没有特定类别异常样本的情况下，快速部署到新的生产线或检测新的产品类型。
方法论创新：该工作展示了如何通过结构化地融合视觉与文本信息（多层特征注入）以及设计互补的推理策略（双分支），来克服预训练大模型在特定下游任务（异常检测）中的局限性。
鲁棒性提升：通过 CNF 和通用提示的设计，模型对工业数据中的噪声标签和类别名称不规范问题具有极强的鲁棒性，为实际落地提供了重要保障。

总结：GenCLIP 通过巧妙的提示工程和多视角推理策略，成功将 CLIP 的零样本能力转化为工业级异常检测的强有力工具，在保持通用性的同时，实现了对特定类别异常的高精度定位。