原作者： Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

发布于 2026-05-15✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你是大型工厂的质量控制主管。你的工作是在传送带上滚动的产品中找出微小的缺陷。通常，你拥有一支专家团队，他们研究过成千上万个完美产品。他们确切知道一个“合格”的墙壁插座、一块布料或一罐果酱应该是什么样子。如果他们看到与完美记忆不符的东西，就会将其标记为缺陷。

然而，有一个棘手之处：工厂的照明条件不断变化。有时明亮，有时昏暗，有时阴影怪异。这让专家们感到困惑，因为同一件完美产品在不同光照下看起来截然不同。他们可能会在实际上只是阴影时大喊“缺陷！”，或者更糟的是，因为光线将其掩盖而漏掉真实的裂纹。

本文提出了一种名为SuperADD的全新超智能系统，旨在解决这一确切问题。以下是其工作原理，分解为简单概念：

1. “无需训练”的超能力

大多数 AI 系统就像学生，需要在教室里坐上好几个月，才能学会每种特定产品的缺陷长什么样。如果你引入新产品或改变照明，就必须送它们回学校重新学习一切。

SuperADD则不同。它像一名侦探，无需事先研究特定产品。它使用一个预训练的“大脑”（称为DINOv3），该大脑已经看过互联网上的数百万张图片。它了解“正常”纹理和形状通常的样子。因为它无需为每条新生产线重新训练，所以可以立即部署。这是一种“即插即用”的解决方案。

2. “记忆库”策略

该系统不是试图记住每一张完美图像，而是构建一个记忆库。

想象你给一个完美的墙壁插座拍了一张照片。
系统将这张照片分解成千上万个微小的拼图碎片（图像块）。
它将这些碎片的“本质”保存到一个巨大的图书馆（记忆库）中。
当新产品来到传送线上时，系统将其分解为相同的拼图碎片，并问道：“我的图书馆里有与这块完美匹配的吗？”
如果某块碎片在图书馆中找不到任何匹配项，它就会被标记为异常（异常点）。

3. “重叠拼图”技巧

该系统的原始版本存在一个问题：它以大的、不重叠的区块来观察产品。如果缺陷恰好位于两个区块之间的分界线上，系统可能会漏掉它或感到困惑，就像试图阅读一个被书本装订线切断一半的单词。

SuperADD通过使用重叠图像块解决了这个问题。想象透过一扇滑动的窗户观察产品，但这扇窗户非常大，以至于它与上一视角重叠。这确保了无论缺陷位于何处，都能从多个角度被清晰地看到，从而使系统更加可靠。

4. “光照模拟器”

为了应对工厂照明的变化，系统在设置阶段不会仅仅按原样查看训练照片。它会人为地调暗和调亮图像。这就像为了考试做准备，先在暗室学习，然后在亮室学习，接着在闪烁灯光的房间学习。这训练系统忽略光照变化，只专注于产品的实际形状和纹理。

5. “形态学闭运算”（粘合剂）

有时，系统会检测到缺陷，但结果看起来像是一条断裂的虚线，而不是一条实心的划痕。就像看到汽车上的划痕，但只有中间部分被高亮显示。

为了解决这个问题，SuperADD 使用了一个称为形态学闭运算的步骤。将其想象成一种神奇的胶水。它查看那些断裂的、点状的高亮区域，并轻轻地将它们连接起来，形成一个实心、平滑的形状。它还会填充缺陷区域内的任何微小孔洞，确保最终报告呈现出问题完整、清晰的图像。

结果

该系统在一项激烈的竞赛（VAND 4.0 工业赛道）中进行了测试，使用的数据集名为MVTec AD 2，其中包含棘手物品，如闪亮的金属罐、透明罐子和成堆的大米。

挑战：测试数据的光照条件与训练数据不同，且系统必须使用相同的设置（不对每个物体进行自定义调整）来处理所有不同类型的物体。
结果：SuperADD 获胜。它在所有竞争对手中取得了最高分数。
- 它正确识别布料缺陷的准确率约为 88%。
- 它正确识别大米缺陷的准确率约为 74%。
- 最重要的是，它击败了之前的最佳方法，证明了无需为每种产品定制复杂的训练 AI 也能获得出色的结果。

总结

SuperADD是一种智能、灵活且快速的方法，用于检测工厂缺陷，无需为每种新产品或光照变化重新训练 AI。它利用预训练的大脑，通过重叠观察产品以避免遗漏细节，通过模拟光照变化进行练习以保持稳健，并使用“胶水”确保最终的缺陷图清晰完整。这是一种真正“万能”的解决方案。

技术摘要：SuperADD——无需训练的类无关异常分割

1. 问题陈述

本文针对工业检测中的视觉异常检测（AD），特别聚焦于训练与部署之间因采集条件变化（例如光照变化）导致的分布偏移挑战。该工作位于VAND 4.0 工业赛道，使用MVTec AD 2数据集。

关键约束与挑战包括：

无监督设置：模型仅使用正常（无缺陷）图像进行训练。
鲁棒性：模型必须在训练集与测试集之间存在显著外观偏移（光照、纹理变化）的情况下保持性能。
类无关要求：与以往版本（VAND 3.0）中常见的特定类别架构或超参数不同，该挑战要求对所有物体类别使用单一架构和共享的超参数配置，以确保实际可部署性并最小化适应工作量。
评估：性能通过像素级 F1 分数和 AU-ROC 在私有测试划分（TESTpriv 和 TESTpriv,mix）上进行衡量，其中真实标签被隐藏以防止过拟合。

2. 方法论

所提出的方法SuperADD是一个基于SuperAD框架的无需训练的流水线，其本身受PatchCore启发。它利用冻结的预训练视觉 Transformer 骨干网络提取特征，并在不更新模型权重的情况下执行最近邻异常检测。

2.1. 架构与特征提取

骨干网络：作者将 SuperAD 中使用的 DINOv2 骨干网络替换为DINOv3 (ViT-H+/16)，利用其更优越的预训练视觉表示。
多层嵌入：特征向量从 Transformer 的四个中间层（第 7、15、23 和 31 层）提取。
记忆库构建：从训练数据中构建包含“正常”原型的记忆库。

2.2. 关键技术改进

本文引入了若干具体适配以增强鲁棒性和泛化能力：

重叠分块处理：
- 不再处理整张图像或非重叠图块，而是将输入图像划分为重叠图块（ $P=640$ ，重叠 $O=128$ ）。
- 目的：降低对网格位置伪影的敏感性，防止在空白区域或图像边界处产生虚假异常。这消除了对零填充的需求，而零填充可能会产生不切实际的参考嵌入。
- 推理：丢弃重叠区域中的冗余预测，并将剩余的嵌入重新组装成连贯的映射图。
优化的子采样策略：
- 问题：原始 SuperAD 子采样 16 张图像，未能移除图像内部或相似区域之间近乎重复的特征向量。
- 解决方案：作者直接在特征向量上使用基于 k 近邻（k-NN）的方法进行子采样。
- 机制：对于每个候选向量，计算全局距离阈值内的邻居数量。保留得分较低（位于特征空间中稀疏区域）的向量。这确保了记忆库紧凑且多样，能更好地覆盖数据分布，同时减少内存使用。
基于强度的增强：
- 在训练数据处理期间，像素值按从 $[0.8, 1.2]$ 均匀采样的随机因子进行缩放。
- 目的：模拟不同的积分时间和光照条件，从而提高对训练与测试数据之间光照偏移的鲁棒性。
阈值设定与后处理：
- 阈值设定：不使用从测试数据导出的特定类别阈值，而是将单个阈值定义为训练数据异常图值第 95 百分位数的缩放版本（增益因子 1.3–1.5）。
- 形态学闭运算：应用迭代形态学闭运算步骤（16 次迭代，使用半径为 26 像素、不同方向的线结构元素），以连接碎片化的线性缺陷（例如划痕）并闭合小间隙。
- 区域填充：最后一步填充二值掩膜中的孔洞，以确保空间一致性，特别是在异常跨越图块边界的情况下。

3. 主要贡献

作者声称以下贡献：

类无关框架：使用单一架构和超参数处理所有物体类别的统一流水线，符合 VAND 4.0 约束。
改进的子采样：一种特征空间子采样方法，相比图像级选择，提高了数据分布覆盖率和计算效率。
分块预处理：引入重叠图块以减轻位置依赖的伪影并改善泛化能力。
鲁棒的后续处理：应用迭代、多方向的形态学闭运算以生成空间一致的异常图。
光照鲁棒性：使用强度缩放来模拟训练期间的光照偏移。
骨干网络升级：成功集成DINOv3作为特征提取器。

4. 结果

该方法在 MVTec AD 2 数据集的三个划分（TESTpub、TESTpriv 和 TESTpriv,mix）上进行了评估。

性能指标：
- TESTpub：平均 F1 分数达到62.61%，AU-ROC0.05 为 83.93%。
- TESTpriv：平均 F1 分数达到57.42%。
- TESTpriv,mix：平均 F1 分数达到54.35%。
对比：
- SuperADD 优于之前的最先进方法（来自 VAND 3.0 的 ISVL），后者在 TESTpriv 上得分为 53.81%，在 TESTpriv,mix 上为 51.43%。
- 它也超过了去年其他顶级方法（RoBiS、ASEG）以及 PatchCore 和 EfficientAD 等标准基线。
特定类别性能：
- 在Fabric（TESTpriv 上 F1 为 88.47%）和Rice（F1 为 73.83%）上观察到高性能。
- 在Can上的性能较低（TESTpub 上 F1 为 0.00%，TESTpriv 上为 11.59%），归因于细微缺陷人眼几乎不可见。
- Wallplugs在 TESTpriv 上的性能相比 TESTpub 显著下降，可能是由于缺陷更细微，且真实标签对误报的容忍度更低。

5. 意义与主张

本文将 SuperADD 定位为工业异常检测的实际可部署解决方案。其意义在于：

无需训练的高效性：通过避免模型重新训练，该方法允许快速集成新产品类别或设计变更，这是动态工业环境中的关键要求。
泛化能力：该方法证明，单一、类无关的配置可以有效处理各种物体类型（散装货物、有纹理的、反光的、透明的）和变化的光照条件，而无需针对每个类别进行微调。
对分布偏移的鲁棒性：DINOv3、强度增强和分块处理的结合成功缓解了通常由采集条件偏移引起的性能下降。

作者承认了局限性，例如难以检测缺失部分（例如破碎的碎片）或反光表面上极细的划痕，但强调该方法成功定位了大米和核桃等类别中的小缺陷，以及具有高一致性的大规模缺陷。建议未来的工作探索结合扩散模型生成合成异常的双记忆库，尽管这超出了当前无需训练主张的范围。

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track