FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本文提出了 FiLo++ 方法,通过融合大语言模型生成的细粒度描述与可变形定位模块,有效解决了现有零样本和少样本异常检测中描述泛化性不足及定位精度低的问题,显著提升了模型在目标类别无标签或少量样本场景下的检测与定位性能。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 FiLo++ 的新方法,它就像是一个拥有“超级眼睛”和“博学大脑”的智能质检员

为了让你更容易理解,我们可以把“异常检测”想象成在流水线上检查产品,或者医生给病人看病

1. 以前的痛点:老式质检员的局限

想象一下,以前的质检员(传统的异常检测算法)是这样工作的:

  • 死记硬背:他们必须先看几千个完全正常的苹果,记住“正常苹果”长什么样。
  • 遇到新情况就懵:如果突然来了一个他们没见过的“梨”,或者工厂换了一种新的“螺丝”,他们就不敢判断了,因为没见过。
  • 描述太模糊:如果让他们找坏苹果,他们只会说“这个苹果坏了”或者“这个苹果是好的”。但“坏了”可以是烂了、被虫咬了、或者颜色不对。这种模糊的描述让他们很难精准定位到底是哪里出了问题。
  • 容易误报:他们看东西很死板,有时候把苹果旁边的阴影或者背景里的灰尘,也当成是苹果上的“坏点”,导致误报。

FiLo++ 的出现,就是为了解决这些“冷启动”(没看过样本)和“描述模糊”的问题。


2. FiLo++ 的两大核心绝招

FiLo++ 就像是一个刚毕业但读过万卷书的实习生,它不需要先背几千个正常样本,而是靠两个核心技能来工作:

绝招一:FusDes(融合细粒度描述)—— 给大脑装上“百科全书”

以前的质检员只会说“坏了”或“没坏”。FiLo++ 则不同:

  • 调用“大模型大脑”:它连接了一个像 GPT-4 这样的超级大脑(大语言模型)。
  • 生成详细剧本:当它看到一张“螺丝”的图片时,它不会只说“螺丝”,而是会问大脑:“螺丝可能会出什么毛病?”大脑会回答:“可能是断了一截螺纹滑丝、或者生锈了。”
  • 动态过滤:它会把所有可能的毛病列出来,然后像筛子一样,把那些和当前图片完全不搭边的描述筛掉,只留下最精准的描述。
  • 比喻:这就好比以前你找东西只说“找那个红色的”,现在 FiLo++ 会说“找那个红色的、圆形的、表面有划痕的苹果”。描述越精准,找得越准。

绝招二:DefLoc(可变形定位)—— 给眼睛装上“智能放大镜”

以前的方法在找坏点时,就像是用固定大小的方框去盖图片。如果坏点是个长条形的裂缝,或者是个不规则的斑点,方框要么盖不住,要么盖住了太多没用的背景。

  • 先圈重点:FiLo++ 先用一个强大的“寻宝工具”(Grounding DINO)在图片里大概圈出“物体在哪里”,先把背景里的灰尘、阴影都排除掉。
  • 加上位置标签:它会给描述加上位置信息,比如“在左上角的划痕”。
  • 可变形卷积(MDCI):这是它的独门绝技。想象一下,以前的放大镜是方形的,只能看方形区域。FiLo++ 的放大镜是像橡皮泥一样可以变形的,它可以变成长条形去抓裂缝,变成圆形去抓斑点,变成大框去抓大面积污渍。
  • 比喻:就像是用智能橡皮泥去贴合物体,而不是用硬纸板去硬套。无论缺陷是长是短、是大是小,它都能完美贴合。

3. 它是怎么工作的?(简单流程)

  1. 看图:给 FiLo++ 一张新产品的照片(比如一个新的螺丝)。
  2. 问大脑:它立刻问大语言模型:“螺丝可能有哪些毛病?”得到一堆详细的描述(如:断头、滑丝、生锈)。
  3. 找位置:它先用“寻宝工具”圈出螺丝大概在哪里,忽略背景。
  4. 对号入座:它拿着那些详细的描述(“左上角的滑丝”),配合那个“可变形的智能放大镜”,在圈出的区域里仔细比对。
  5. 得出结论
    • 如果是零样本(Zero-shot):它完全靠自己的“知识库”和“位置感”直接判断。
    • 如果是少样本(Few-shot):如果给它看 1-4 张正常的螺丝照片,它会结合这些参考图,把判断做得更精准。

4. 为什么它这么厉害?

  • 不用大量训练:以前需要几千张正常照片来“教”模型,FiLo++ 只需要一点点样本,甚至不需要(零样本),因为它有“大模型大脑”做后盾。
  • 看得更准:因为它能描述出“滑丝”、“断头”这种细节,而不是笼统的“坏了”,所以它不容易把背景误认为是缺陷。
  • 适应性强:无论是工业上的螺丝、木板,还是医学上的脑部肿瘤视网膜病变,它都能用同样的逻辑去处理。就像它学会了“找坏东西”的通用逻辑,而不是死记硬背某种东西。

总结

FiLo++ 就像是一个既读过万卷书(利用大语言模型生成详细描述),又拥有透视眼和变形金刚般灵活眼睛(利用可变形定位技术)的超级质检员。

它不需要先背熟所有正常产品的样子,只要给它看一两张图,甚至不给图,它就能精准地告诉你:“这个螺丝在左上角滑丝了”,而且不会把背景里的灰尘当成毛病。这让它在工厂质检、医疗诊断等需要快速适应新场景的领域,变得非常强大。