FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本文提出了一种名为 FiLo 的零样本异常检测方法,通过利用大语言模型生成细粒度描述和结合多尺度跨模态交互实现高质量定位,显著提升了在 MVTec 和 VisA 等数据集上的异常检测与定位性能并达到了最先进水平。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Hao Li, Ming Tang, Jinqiao Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FiLo 的新方法,专门用来解决工业界的一个大难题:如何在没见过某种产品之前,就能一眼看出它有没有坏(缺陷),并且精准地指出坏在哪里。

为了让你更容易理解,我们可以把这项技术想象成一位**“超级质检员”**。

1. 以前的质检员遇到了什么麻烦?

在 FiLo 出现之前,现有的“零样本异常检测”(ZSAD)方法就像是一个刚毕业、只有理论知识的实习生

  • 问题一:描述太模糊(“它坏了”vs“它哪里坏了”)

    • 旧方法:当实习生看到一张图片,他脑子里只有两个词:“正常”和“坏了”。
    • 比喻:就像你让实习生去检查一堆水果,他只知道“苹果”和“烂苹果”。但他分不清苹果是“被虫咬了”、“发霉了”还是“磕破了”。因为描述太笼统,他经常把正常的苹果皮纹理误认为是“坏了”,或者把真正的虫眼漏掉。
    • 后果:检测不准,容易误报(把好的当坏的)或漏报。
  • 问题二:找位置像“大海捞针”(“这块区域”vs“具体哪一点”)

    • 旧方法:为了找坏点,实习生把图片切成无数个小方块(像拼图一样),一个个去和“坏了”这个词做对比。
    • 比喻:这就像在一张巨大的地图上找一个小黑点,他必须把地图切成几千块,每块都拿出来问:“你是那个黑点吗?”而且他不管黑点是大是小、是圆是扁,都用同一种方式找。
    • 后果:不仅速度慢,而且经常把背景里的灰尘、阴影也当成“黑点”(误报),或者因为黑点形状太奇怪而找不到。

2. FiLo 这位“超级质检员”是怎么做的?

FiLo 给这位实习生配了两样神器,让他瞬间变成了专家:FG-Des(精细描述生成器)HQ-Loc(高质量定位仪)

神器一:FG-Des —— 请来了“百科全书”写说明书

  • 核心功能:利用大语言模型(LLM,比如 GPT-4)的知识,为每种产品生成极其详细的“坏掉清单”
  • 比喻
    • 以前实习生只背了“坏了”这个词。
    • 现在,FiLo 先问 AI 专家:“如果是地毯,可能有哪些坏法?”AI 告诉他:“可能是边缘磨损局部褪色烧焦痕迹或者污渍。”
    • 如果是螺丝,AI 会列出:“生锈螺纹滑丝头部变形"。
    • 效果:实习生不再只盯着“坏了”看,而是拿着这份详细的“通缉令”去比对。比如看到地毯边缘磨损,他就能精准匹配上,而不是瞎猜。这让检测更准,而且能告诉你具体是哪种毛病(可解释性更强)。

神器二:HQ-Loc —— 配备了“雷达”和“多倍镜”

  • 核心功能:结合定位工具(Grounding DINO)和一种特殊的“多形状扫描”模块(MMCI)。
  • 比喻
    • 第一步(雷达初筛):在仔细检查前,先用一个“雷达”(Grounding DINO)扫一眼。雷达虽然不能 100% 精准,但它能告诉你:“嘿,坏东西肯定在前景的物体上,背景里的灰尘不用管。”
      • 作用:直接过滤掉背景里的干扰项,不再把墙上的影子当成缺陷。
    • 第二步(位置增强):把雷达找到的位置信息告诉实习生:“注意,缺陷在右上角。”
      • 作用:让实习生把注意力集中在特定区域,不再漫无目的地乱看。
    • 第三步(多倍镜扫描 - MMCI):这是最厉害的一步。实习生不再只用一种大小的放大镜。他同时拿起了圆形、方形、长条形的放大镜,还有大、中、小不同倍率的镜头。
      • 作用:不管缺陷是像针尖一样小,还是像巴掌一样大;是圆形的,还是长条的裂缝,他都能用合适的“镜头”精准捕捉到。

3. 最终效果如何?

经过这套组合拳,FiLo 在两个著名的工业检测数据集(MVTec 和 VisA)上取得了目前最好的成绩(State-of-the-Art):

  • 看得更准:能识别出更多以前漏掉的缺陷。
  • 找得更精:能画出非常贴合缺陷形状的轮廓,不再把背景误判进去。
  • 不用重新训练:最神奇的是,它不需要提前见过这些产品的坏样本,只要告诉它“这是地毯”或“这是螺丝”,它就能利用 AI 的知识库直接上岗干活。

总结

FiLo 就像给工业质检员装上了“超级大脑”和“火眼金睛”:

  1. 超级大脑:不再只会说“坏了”,而是能说出“这里有个虫眼,那里有划痕”。
  2. 火眼金睛:不再盲目扫描,而是先锁定目标区域,再用各种形状的放大镜精准定位。

这项技术让机器在没见过新生产线、没有坏样本数据的情况下,也能像老专家一样精准地挑出次品,极大地提高了生产效率和安全性。