原著者： Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

公開日 2026-05-15✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

巨大な工場の品質管理責任者になったと想像してください。あなたの仕事は、コンベアベルトを流れる製品に微小な欠陥を見つけることです。通常、あなたは完璧な製品を数千点研究してきた専門家チームを率いています。彼らは、完璧な「壁用コンセント」や「布地」、あるいは「ジャムの瓶」がどのように見えるべきかを正確に知っています。もし、その完璧な記憶と一致しないものが見つかれば、それを欠陥としてマークします。

しかし、問題があります。工場の照明は絶えず変化しているのです。時には明るく、時には暗く、時には影が奇妙に伸びます。これにより専門家たちは混乱します。なぜなら、同じ完璧な製品でも、照明が変われば異なるように見えるからです。実際には単なる影なのに「欠陥だ！」と叫んでしまうかもしれませんし、もっと悪いことに、光が欠陥を隠しているために、本当のひび割れを見逃してしまうかもしれません。

この論文は、まさにこの問題を解決するために設計された、超スマートな新システム「SuperADD」を発表します。その仕組みを、簡単な概念に分解して説明します。

1. 「トレーニング不要」の超能力

ほとんどの AI システムは、各特定の製品に対して欠陥がどのようなものかを学ぶために、何ヶ月も教室で勉強する必要がある生徒のようです。新しい製品を導入したり、照明を変えたりすれば、彼らを学校に戻してすべてを再学習させる必要があります。

SuperADDは異なります。それは事前に特定の製品を勉強する必要がない探偵のようなものです。これは、インターネットから数百万枚の画像をすでに学習済みの事前学習済み「脳」（DINOv3と呼ばれる）を使用します。これにより、「正常」なテクスチャや形状が一般的にどのように見えるかを理解しています。新しい工場ラインごとに再学習する必要がないため、即座に導入できます。これは「プラグ＆プレイ」型のソリューションです。

2. 「メモリバンク」戦略

システムは、完璧な画像をすべて記憶しようとする代わりに、メモリバンクを構築します。

完璧な壁用コンセントの写真を撮影したと想像してください。
システムはその写真を数千の小さなパズルのピース（パッチ）に分割します。
それらのピースの「本質」を巨大な図書館（メモリバンク）に保存します。
新しい製品がラインを流れてくると、システムはそれを同じパズルのピースに分割し、次のように問いかけます：「このピースに、私の図書館内で完璧に一致するものはあるか？」
もしピースが図書館内の任何东西と一致しなければ、それは奇妙なもの（異常）としてマークされます。

3. 「重なり合うパズル」のトリック

このシステムの元のバージョンには問題がありました。それは、製品を重なり合わない大きなブロックで見ていたのです。もし欠陥がたまたま 2 つのブロックの境界線上に位置した場合、システムは見逃したり混乱したりする可能性があります。まるで本の背表紙で半分に切られた単語を読もうとしているようなものです。

SuperADDは、重なり合うパッチを使用することでこれを修正します。製品をスライドする窓を通して見るようなものだと想像してください。ただし、その窓は非常に大きく、前の視界と重なり合っています。これにより、欠陥がどこにあっても、複数の角度から明確に捉えることができ、システムの信頼性が大幅に向上します。

4. 「照明シミュレーター」

変化する工場照明に備えるため、システムはトレーニング写真をそのまま見るだけではありません。セットアップ段階で、画像を人工的に暗くしたり明るくしたりします。まるで、テストの練習のために暗い部屋、明るい部屋、そして点滅する照明のある部屋で勉強しているようなものです。これにより、システムは照明の変化を無視し、製品の実際の形状とテクスチャのみに焦点を当てるように訓練されます。

5. 「形態学的クロージング」（接着剤）

時には、システムが欠陥を検知しても、その結果が連続した傷ではなく、破れた点線のように見えることがあります。まるで車の傷を見ているのに、中央部分だけがハイライトされているようなものです。

これを修正するため、SuperADD は形態学的クロージングというステップを使用します。これを魔法の接着剤だと考えてください。それは、破れた点線のハイライトを見て、点を優しくつなぎ合わせ、固体で滑らかな形状を形成します。また、欠陥領域内の小さな穴も埋め、最終的なレポートに問題の完全でクリーンな画像が表示されるようにします。

結果

このシステムは、光沢のある金属缶、透明な瓶、米の山など、厄介なアイテムを含むMVTec AD 2というデータセットを使用した、過酷なコンテスト（VAND 4.0 Industrial Track）でテストされました。

課題: テストデータはトレーニングデータとは異なる照明条件を持っており、システムはすべての異なる種類のオブジェクトに対して、同じ設定（各オブジェクトごとのカスタム調整なし）で動作しなければなりませんでした。
結果: SuperADD が優勝しました。すべての競合他社の中で最高得点を達成しました。
- 布地の欠陥を約 88% の確率で正確に識別しました。
- 米の欠陥を約 74% の確率で正確に識別しました。
- 最も重要なのは、これまでの最良の方法を凌駕し、素晴らしい結果を得るために、すべての製品ごとに複雑でカスタム学習された AI を必要としないことを証明したことです。

まとめ

SuperADDは、すべての新しい製品や照明の変化に対して AI を再学習させることなく、工場の欠陥を素早く、柔軟に、かつスマートに検出する方法です。これは、事前学習された脳を使用し、詳細を見逃さないように製品を重なり合うピースで観察し、頑強さを保つために人工的な照明変化で練習し、最終的な欠陥マップがクリーンで完全であることを保証するために「接着剤」を使用します。これは、実際に非常に良くフィットする「万能」ソリューションです。

技術概要：SuperADD – 学習不要なクラス非依存異常セグメンテーション

1. 問題定義

本論文は、産業検査における視覚的異常検出（AD）を取り扱い、特に訓練と展開の間で生じる取得条件（例：照明変化）の違いによる分布シフトの課題に焦点を当てている。この研究は、MVTec AD 2データセットを利用するVAND 4.0 産業トラックの文脈に位置づけられている。

主な制約と課題は以下の通りである：

教師なし設定：モデルは正常（欠陥なし）画像のみで訓練される。
頑健性：訓練セットとテストセット間の外観の大きな変化（照明、テクスチャのばらつき）にもかかわらず、モデルは性能を維持しなければならない。
クラス非依存要件：以前のバージョン（VAND 3.0）ではクラス固有のアーキテクチャやハイパーパラメータが一般的であったが、本課題では、実用的な展開可能性と最小限の適応努力を確保するため、すべての物体クラスに対して単一のアーキテクチャと共有されたハイパーパラメータ構成が義務付けられている。
評価：性能は、過学習を防ぐために正解ラベルが隠された非公開テスト分割（TESTpriv および TESTpriv,mix）におけるピクセルレベルの F1 スコアと AU-ROC によって測定される。

2. 手法

提案手法であるSuperADDは、PatchCoreに触発されたSuperADフレームワークに基づいた学習不要のパイプラインである。これは、凍結された事前学習済み Vision Transformer バックボーンを用いて特徴を抽出し、モデル重みの更新を行わずに最近傍外れ値検出を実行する。

2.1. アーキテクチャと特徴抽出

バックボーン：著者は SuperAD で使用されていた DINOv2 バックボーンを、優れた事前学習済み視覚表現を活用する**DINOv3（ViT-H+/16）**に置き換えた。
多層埋め込み：特徴ベクトルは、トランスフォーマーの 4 つの中間層（7、15、23、および 31 層）から抽出される。
メモリバンク構築：「正常」なプロトタイプのメモリバンクが訓練データから構築される。

2.2. 主要な技術的修正

本論文は、頑健性と汎化性能を高めるためにいくつかの具体的な適応を導入している：

重なり合うパッチ処理：
- 画像全体または重なりのないタイルを処理する代わりに、入力画像は重なり合うパッチ（ $P=640$ 、重なり $O=128$ ）に分割される。
- 目的：グリッド位置のアーティファクトへの感度を低減し、空の領域や画像境界での偽の異常を防止する。非現実的な参照埋め込みを作成しうるゼロパディングの必要性を排除する。
- 推論：重なり領域での冗長な予測は破棄され、残りの埋め込みは整合性のあるマップとして再構成される。
洗練されたサンプリング戦略：
- 問題：元の SuperAD は 16 枚の画像をサンプリングしていたが、画像内または類似領域間でのニアディuplicate 特徴ベクトルを除去できなかった。
- 解決策：著者は、k 近傍法（k-NN）に基づくアプローチを用いて、直接特徴ベクトルに対してサンプリングを行う。
- メカニズム：各候補ベクトルについて、グローバル距離閾値内の近傍点の数を計算する。低いスコアを持つベクトル（特徴空間の疎な領域に位置するもの）を保持する。これにより、メモリ使用量を削減しつつ、データ分布をよりよくカバーするコンパクトで多様なメモリバンクが確保される。
強度ベースのデータ拡張：
- 訓練データ処理中に、ピクセル値を $[0.8, 1.2]$ から一様にサンプリングされたランダムな因子でスケーリングする。
- 目的：積分時間や照明条件の変化をシミュレートし、訓練データとテストデータ間の照明シフトに対する頑健性を向上させる。
閾値設定と後処理：
- 閾値設定：テストデータから導出されたクラス固有の閾値の代わりに、訓練データからの異常マップ値の95 パーセンタイルのスケーリング版（ゲイン因子 1.3–1.5）として単一の閾値を定義する。
- 形態学的クロージング：断片化した線状の欠陥（例：傷）を接続し、小さな隙間を閉じるため、様々な方向の半径 26 ピクセルの線状構造要素を用いた 16 回の反復形態学的クロージングを適用する。
- 領域充填：最終ステップとして、特に異常がパッチ境界を横切る場合の空間的一貫性を確保するため、二値マスク内の穴を埋める。

3. 主要な貢献

著者は以下の貢献を主張している：

クラス非依存フレームワーク：VAND 4.0 の制約に準拠し、すべての物体クラスに対して単一のアーキテクチャとハイパーパラメータを使用する統合パイプライン。
改善されたサンプリング：画像レベルの選択と比較して、データ分布のカバレッジと計算効率を向上させる特徴空間サンプリング手法。
パッチごとの前処理：位置依存のアーティファクトを軽減し、汎化性能を向上させるための重なり合うパッチの導入。
頑健な後処理：空間的一貫性のある異常マップを生成するための反復的・多方向の形態学的クロージングの適用。
照明への頑健性：訓練中に照明シフトをシミュレートするための強度スケーリングの使用。
バックボーンのアップグレード：特徴抽出器としてDINOv3の成功した統合。

4. 結果

本手法は、MVTec AD 2 データセットの 3 つの分割（TESTpub、TESTpriv、TESTpriv,mix）で評価された。

性能指標：
- TESTpub：平均 F1 スコア 62.61%、AU-ROC0.05 83.93% を達成。
- TESTpriv：平均 F1 スコア 57.42% を達成。
- TESTpriv,mix：平均 F1 スコア 54.35% を達成。
比較：
- SuperADD は、TESTpriv で 53.81%、TESTpriv,mix で 51.43% を記録した以前の最先端手法（VAND 3.0 の ISVL）を上回った。
- また、昨年の他のトップ手法（RoBiS、ASEG）や、PatchCore や EfficientAD などの標準的なベースラインも凌駕した。
クラス固有の性能：
- Fabric（TESTpriv で 88.47% の F1）やRice（73.83% の F1）では高い性能が観測された。
- Can（TESTpub で 0.00% の F1、TESTpriv で 11.59%）では性能が低く、これは人間の目にはほとんど見えない微細な欠陥に起因すると考えられる。
- Wallplugsは、TESTpub に比べて TESTpriv で性能が大幅に低下した。これは、より微妙な欠陥と、正解ラベルにおける偽陽性に対する許容度の低さが原因と考えられる。

5. 意義と主張

本論文は、SuperADD を産業用異常検出のための実用的に展開可能なソリューションとして位置づけている。その意義は以下の点にある：

学習不要の効率性：モデルの再訓練を回避することで、動的な産業環境における重要な要件である、新しい製品クラスや設計変更の迅速な統合を可能にする。
汎化：このアプローチは、クラスごとのチューニングなしに、多様な物体タイプ（塊状品、テクスチャのあるもの、反射性のあるもの、透明なもの）および変化する照明条件を効果的に処理できる単一のクラス非依存構成が可能であることを示している。
分布シフトへの頑健性：DINOv3、強度拡張、パッチごとの処理の組み合わせは、取得条件の変化によって通常引き起こされる性能低下を成功裡に軽減した。

著者は、欠落した部品（破損した破片など）や反射面上の非常に細い傷の検出が困難であるといった限界を認めているが、この手法は米や胡桃などのカテゴリにおける小さな欠陥、および高い一貫性を持つ大規模な欠陥の局在化に成功したことを強調している。今後の研究として、拡散モデルを用いた合成異常を組み込んだ二重メモリバンクの探求が提案されているが、これは現在の学習不要という主張の範囲外に残る。

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track