VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

VisualAD 提出了一种基于视觉 Transformer 的纯视觉零样本异常检测框架,通过引入可学习的正常与异常令牌及空间感知模块,在无需文本编码器的情况下实现了跨工业与医疗领域的领先性能。

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VisualAD 的新方法,用来解决一个非常棘手的问题:如何在不给机器看任何“坏例子”的情况下,让它自动发现产品或医学影像中的“异常”

为了让你轻松理解,我们可以把这项技术想象成招聘一位“超级质检员”

1. 背景:以前的质检员太依赖“说明书”了

在传统的“零样本异常检测”(Zero-Shot Anomaly Detection)中,现有的主流方法(比如基于 CLIP 模型的方法)就像是一个依赖“文字说明书”的质检员

  • 以前的做法:为了教机器识别“坏掉的螺丝”,工程师必须给它写一堆文字提示(Prompt),比如“这是一个有裂纹的螺丝”或“这是一个正常的螺丝”。机器通过对比“图片”和“文字”的相似度来判断。
  • 缺点:这就像质检员必须时刻拿着字典查词才能工作。
    • 效率低:需要处理文字和图片两种信息,计算量大,参数多。
    • 不稳定:有时候文字描述稍微变一下,或者机器对文字的理解有偏差,检测结果就会忽高忽低(就像论文图 1 里那条上下波动的曲线)。
    • 冗余:其实机器看图就能看出好坏,非要让它去读文字,有点“杀鸡用牛刀”。

2. 核心突破:VisualAD —— 培养一位“直觉型”质检员

VisualAD 的作者做了一个大胆的实验:既然机器能看图,为什么非要让它读文字呢?

他们提出了一种纯视觉的框架,就像培养了一位不需要文字说明书,全靠“直觉”和“经验”的超级质检员

它的三个“独门绝技”:

第一招:植入两个“记忆芯片”(可学习的 Token)

  • 比喻:想象在质检员的脑子里植入两个特殊的“记忆芯片”。
    • 一个是**“正常芯片”**:专门用来记住“完美的样子”。
    • 一个是**“异常芯片”**:专门用来记住“不对劲的感觉”。
  • 作用:这两个芯片不是写死的,而是可以学习的。它们直接插在视觉神经(Vision Transformer)里,不需要通过文字来定义,直接通过看图来进化。

第二招:空间感知雷达(SCA 模块)

  • 比喻:普通的“记忆芯片”可能只记得“这是个坏东西”,但不知道“坏在哪里”。VisualAD 给这两个芯片装上了**“空间感知雷达”**。
  • 作用:当芯片扫描图片时,雷达会告诉芯片:“注意!第 3 行第 5 列的纹理有点奇怪,第 10 行第 2 列的颜色不对劲。”
  • 效果:这让芯片不仅能判断“有没有坏”,还能精准地指出“哪里坏了”,就像给质检员配了放大镜和定位仪。

第三招:自我校准眼镜(SAF 模块)

  • 比喻:有时候图片太模糊,或者光线不好,芯片看东西会“走样”。VisualAD 给芯片戴上了一副**“自我校准眼镜”**。
  • 作用:在做出最终判断前,这副眼镜会先把图片的细节重新调整一下,确保芯片看到的特征是最清晰、最准确的,然后再进行对比。

3. 它是如何工作的?(简单流程)

  1. 看图:把一张新产品的照片(比如一个从未见过的零件)扔进系统。
  2. 扫描:系统里的“正常芯片”和“异常芯片”开始工作。它们通过多层神经网络,像侦探一样层层深入,寻找图片中的蛛丝马迹。
  3. 对比
    • 芯片会问:“这块区域更像‘完美’还是更像‘缺陷’?”
    • 如果某块区域和“异常芯片”很像,和“正常芯片”很不像,系统就会给它打高分。
  4. 出结果
    • 图片级:如果高分区域太多,就判定这张图是“次品”。
    • 像素级:系统会画出一张热力图,哪里红(异常),哪里绿(正常),精准定位缺陷位置。

4. 为什么它这么厉害?

  • 更聪明(纯视觉):它不需要文字,直接通过视觉特征学习。就像教小孩认猫,直接给他看猫的照片,而不是教他背“猫有胡须、有尾巴”的文字定义。
  • 更稳定:论文里的图表显示,以前的方法(AnomalyCLIP)在训练时像坐过山车,忽上忽下;而 VisualAD 像爬楼梯,稳稳地一步步变强。
  • 更省钱:因为它去掉了庞大的文字处理部分,参数量减少了 99%!这意味着它运行更快,需要的电脑配置更低。
  • 通吃:它在工业(检查螺丝、布料)和医疗(检查 X 光片、皮肤癌)领域都取得了世界顶尖的成绩。哪怕是从没见过的疾病或新产品,它也能一眼识破。

总结

VisualAD 就像是一位不需要读说明书、自带雷达和校准眼镜的超级质检员。它证明了在识别“坏东西”这件事上,“看图”比“读字”更直接、更强大、也更高效

这项技术不仅让机器视觉更聪明,也为未来在医疗诊断、工业制造等关键领域快速部署 AI 检测系统铺平了道路。