원저자: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

게시일 2026-05-15✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대한 공장에서 품질 관리 책임자라고 상상해 보세요. 당신의 임무는 컨베이어 벨트를 따라 이동하는 제품에서 미세한 결함을 찾아내는 것입니다. 보통 당신은 수천 개의 완벽한 제품을 연구한 전문가 팀을 거느리고 있습니다. 그들은 완벽한 벽면 플러그, 직물 조각, 또는 젤리 병이 어떻게 보여야 하는지 정확히 알고 있습니다. 만약 그들이 그 완벽한 기억과 맞지 않는 무언가를 발견하면, 그것을 결함으로 표시합니다.

하지만 함정이 하나 있습니다. 공장 조명이 계속 변한다는 것입니다. 때로는 밝고, 때로는 어둡고, 때로는 그림자가 기이합니다. 이는 전문가들을 혼란스럽게 만듭니다. 동일한 완벽한 제품이라도 다른 조명 아래에서는 다르게 보이기 때문입니다. 그들은 실제로는 그림자일 뿐인데 "결함이다!"라고 외치기 시작할 수도 있고, worse, 빛이 실제 균열을 가리고 있을 때 진짜 결함을 놓칠 수도 있습니다.

이 논문은 바로 이 문제를 해결하도록 설계된 새로운 초지능 시스템인 SuperADD를 제시합니다. 이것이 어떻게 작동하는지 간단한 개념으로 나누어 설명하겠습니다:

1. "학습 불필요" 초능력

대부분의 AI 시스템은 각 특정 제품에 대한 결함의 모습을 배우기 위해 몇 달 동안 교실에 앉아 있어야 하는 학생과 같습니다. 새로운 제품을 도입하거나 조명을 변경하면, 그들을 다시 학교로 보내 모든 것을 재학습시켜야 합니다.

SuperADD는 다릅니다. 사전에 특정 제품을 공부할 필요가 없는 탐정처럼 행동합니다. 이는 인터넷에서 수백만 장의 이미지를 이미 본 사전 훈련된 "뇌"(DINOv3라고 함) 를 사용합니다. 이 뇌는 일반적으로 "정상적인" 질감과 모양이 어떻게 생겼는지 알고 있습니다. 새로운 공장 라인마다 재훈련이 필요하지 않기 때문에 즉시 배포할 수 있습니다. 이는 "플러그 앤 플레이" 솔루션입니다.

2. "메모리 뱅크" 전략

모든 완벽한 이미지를 하나하나 외우려고 시도하는 대신, 이 시스템은 메모리 뱅크를 구축합니다.

완벽한 벽면 플러그의 사진을 찍었다고 상상해 보세요.
시스템은 그 사진을 수천 개의 작은 퍼즐 조각 (패치) 으로 분할합니다.
그 조각들의 "본질"을 거대한 도서관 (메모리 뱅크) 에 저장합니다.
새로운 제품이 라인에 내려올 때, 시스템은 그것을 동일한 퍼즐 조각으로 분할하고 묻습니다: "이 조각에 대한 완벽한 매칭이 내 도서관에 있나요?"
만약 어떤 조각이 도서관의 어떤 것과도 매칭되지 않는다면, 그것은 이상한 것 (이상치) 으로 표시됩니다.

3. "겹치는 퍼즐" 트릭

이 시스템의 원래 버전에는 문제가 있었습니다. 제품을 겹치지 않는 큰 블록으로만 살펴보았기 때문입니다. 만약 결함이 두 블록 사이의 경계선에 정확히 위치한다면, 시스템은 그것을 놓치거나 혼란을 겪을 수 있습니다. 마치 책의 제본으로 인해 단어가 반으로 잘려서 읽으려 하는 것과 같습니다.

SuperADD는 겹치는 패치를 사용하여 이를 해결합니다. 미끄러지듯 움직이는 창문을 통해 제품을 바라본다고 상상해 보세요. 하지만 그 창문은 너무 커서 이전 시야와 겹칩니다. 이는 결함이 어디에 있든 상관없이 여러 각도에서 명확하게 보일 수 있도록 보장하여 시스템을 훨씬 더 신뢰할 수 있게 만듭니다.

4. "조명 시뮬레이터"

변화하는 공장 조명을 대비하기 위해, 시스템은 훈련 사진을 있는 그대로만 보지 않습니다. 설정 단계에서 이미지들을 인위적으로 어둡게 하거나 밝게 합니다. 마치 어두운 방, 밝은 방, 그리고 깜빡이는 조명이 있는 방에서 시험 공부를 하며 연습하는 것과 같습니다. 이는 시스템이 조명 변화를 무시하고 오직 제품의 실제 모양과 질감에만 집중하도록 훈련시킵니다.

5. "형태학적 클로징" (접착제)

때때로 시스템이 결함을 발견하지만, 결과가 끊어진 점선처럼 보일 뿐이 아니라면, 고체 긁힌 자국처럼 보이지 않습니다. 마치 자동차에 긁힌 자국이 있는 것을 보는데 중간 부분만 강조된 것과 같습니다.

이를 해결하기 위해 SuperADD는 **형태학적 클로징 (Morphological Closing)**이라는 단계를 사용합니다. 이를 마법 같은 접착제로 생각하세요. 끊어진 점선 강조 부분을 보고 점들을 부드럽게 연결하여 고체이고 매끄러운 형태를 만듭니다. 또한 결함 영역 내부의 작은 구멍들도 채워 넣어, 최종 보고서가 문제의 완전하고 깨끗한 모습을 보여주도록 합니다.

결과

이 시스템은 MVTec AD 2라는 데이터셋을 사용하여 치열한 대회 (VAND 4.0 산업 트랙) 에서 테스트되었습니다. 이 데이터셋에는 반짝이는 금속 캔, 투명한 병, 쌀 더미와 같은 까다로운 항목들이 포함되어 있습니다.

도전 과제: 테스트 데이터는 훈련 데이터와 다른 조명 조건을 가지고 있었으며, 시스템은 각 제품마다 맞춤형 조정이 아닌 동일한 설정으로 모든 다른 유형의 객체에서 작동해야 했습니다.
결과: SuperADD 가 우승했습니다. 모든 경쟁자 중에서 가장 높은 점수를 기록했습니다.
- 직물의 결함을 약 88% 의 정확도로 식별했습니다.
- 쌀의 결함을 약 74% 의 정확도로 식별했습니다.
- 가장 중요한 점은 이전의 최선 방법들을 능가했다는 것입니다. 이는 훌륭한 결과를 얻기 위해 모든 단일 제품에 대해 복잡하고 맞춤형으로 훈련된 AI 가 필요하지 않음을 입증했습니다.

요약

SuperADD는 새로운 제품이나 조명 변화마다 AI 를 재훈련할 필요 없이 공장 결함을 찾아내는 지능적이고 유연하며 빠른 방법입니다. 이는 사전 훈련된 뇌를 사용하고, 세부 사항을 놓치지 않기 위해 겹치는 조각으로 제품을 살펴보며, 튼튼하게 유지하기 위해 가짜 조명 변화로 연습하고, 최종 결함 지도가 깨끗하고 완전하도록 "접착제"를 사용합니다. 이는 실제로 매우 잘 맞는 "원 사이즈 피츠 올" 솔루션입니다.

기술 요약: SuperADD – 학습 없는 클래스 무관 이상 분할

1. 문제 정의

본 논문은 산업 검사 분야의 **시각적 이상 탐지 (AD)**를 다루며, 특히 훈련과 배포 간의 다양한 획득 조건 (예: 조명 변화) 으로 인해 발생하는 **분포 변화 (distribution shifts)**에 초점을 맞춥니다. 이 연구는 MVTec AD 2 데이터셋을 활용하는 VAND 4.0 산업 트랙 내에서 수행되었습니다.

주요 제약 사항과 과제는 다음과 같습니다:

비지도 학습 환경: 모델은 오직 정상 (결함 없는) 이미지만을 사용하여 훈련됩니다.
강건성: 훈련 세트와 테스트 세트 간의 외관 변화 (조명, 질감 변동) 가 크더라도 모델은 성능을 유지해야 합니다.
클래스 무관 요구사항: 이전 버전 (VAND 3.0) 에서 클래스별 아키텍처나 하이퍼파라미터가 일반적이었던 것과 달리, 이번 챌린지는 모든 객체 클래스에 걸쳐 단일 아키텍처와 공유된 하이퍼파라미터 구성을 의무화하여 실제 배포 가능성과 최소한의 적응 노력을 보장합니다.
평가: 성능은 지면 진실 (ground truth) 이 숨겨져 있어 과적합을 방지하는 비공개 테스트 분할 (TESTpriv 및 TESTpriv,mix) 에서 픽셀 단위 F1 점수와 AU-ROC 로 측정됩니다.

2. 방법론

제안된 방법인 SuperADD는 PatchCore에서 영감을 받은 SuperAD 프레임워크를 기반으로 구축된 학습 없는 (training-free) 파이프라인입니다. 이는 고정된 사전 훈련된 비전 트랜스포머 (Vision Transformer) 백본을 사용하여 특징을 추출하고, 모델 가중치를 업데이트하지 않고 최이웃 (nearest-neighbor) 이상치 탐지를 수행합니다.

2.1. 아키텍처 및 특징 추출

백본: 저자들은 SuperAD 에서 사용되던 DINOv2 백본을 **DINOv3 (ViT-H+/16)**로 대체하여, 그 우수한 사전 훈련된 시각 표현을 활용합니다.
다중 레이어 임베딩: 특징 벡터는 트랜스포머의 네 개의 중간 레이어 (7, 15, 23, 31 번) 에서 추출됩니다.
메모리 뱅크 구축: 훈련 데이터로부터 "정상" 프로토타입의 메모리 뱅크가 구축됩니다.

2.2. 주요 기술적 수정 사항

본 논문은 강건성과 일반화를 향상시키기 위해 몇 가지 구체적인 적응 방식을 도입합니다:

중첩 패치 단위 처리:
- 전체 이미지나 비중첩 타일을 처리하는 대신, 입력 이미지를 중첩된 패치 ( $P=640$ , 중첩 $O=128$ ) 로 분할합니다.
- 목적: 이는 그리드 위치 아티팩트에 대한 민감도를 줄이고, 빈 영역이나 이미지 경계에서 발생하는 잘못된 이상 탐지를 방지합니다. 비현실적인 참조 임베딩을 생성할 수 있는 제로 패딩 (zero-padding) 이 필요 없게 됩니다.
- 추론: 중첩 영역의 중복 예측은 폐기되고, 나머지 임베딩은 일관된 맵으로 재조립됩니다.
정교화된 하위 샘플링 전략:
- 문제: 기존 SuperAD 는 16 장의 이미지를 하위 샘플링했는데, 이는 이미지 내 또는 유사한 영역 간의 근접한 중복 특징 벡터를 제거하지 못했습니다.
- 해결책: 저자들은 특징 벡터에 직접 k-최근접 이웃 (k-NN) 기반 접근법을 사용하여 하위 샘플링을 수행합니다.
- 메커니즘: 각 후보 벡터에 대해 글로벌 거리 임계값 내의 이웃 수를 계산합니다. 낮은 점수를 가진 벡터 (특징 공간에서 희소하게 분포된 영역에 있는 벡터) 는 유지됩니다. 이는 데이터 분포를 더 잘 포괄하면서도 메모리 사용량을 줄이는 컴팩트하고 다양한 메모리 뱅크를 보장합니다.
강도 기반 증강:
- 훈련 데이터 처리 중 픽셀 값은 $[0.8, 1.2]$ 범위에서 균일하게 무작위 샘플링된 인자로 스케일링됩니다.
- 목적: 다양한 적분 시간과 조명 조건을 시뮬레이션하여 훈련 데이터와 테스트 데이터 간의 조명 변화에 대한 강건성을 향상시킵니다.
임계값 설정 및 후처리:
- 임계값 설정: 테스트 데이터에서 유도된 클래스별 임계값 대신, 훈련 데이터의 이상 맵 값 중 95 백분위수의 스케일 버전 (이득 인자 1.3–1.5) 으로 단일 임계값을 정의합니다.
- 형태학적 클로징: 파편화된 선형 결함 (예: 스크래치) 을 연결하고 작은 간격을 닫기 위해 다양한 방향의 반경 26 픽셀 선 구조 요소를 사용한 16 회 반복 형태학적 클로징 단계가 적용됩니다.
- 영역 채우기: 최종 단계에서 이진 마스크의 구멍을 채워 패치 경계를 가로지르는 이상과 같은 공간적 일관성을 보장합니다.

3. 주요 기여

저자들은 다음과 같은 기여를 주장합니다:

클래스 무관 프레임워크: VAND 4.0 제약에 부합하는 모든 객체 클래스에 대해 단일 아키텍처와 하이퍼파라미터를 사용하는 통합 파이프라인.
개선된 하위 샘플링: 이미지 단위 선택에 비해 데이터 분포 포괄성과 계산 효율성을 향상시키는 특징 공간 하위 샘플링 방법.
패치 단위 전처리: 위치 의존성 아티팩트를 완화하고 일반화를 개선하기 위한 중첩 패치 도입.
강건한 후처리: 공간적으로 일관된 이상 맵을 생성하기 위한 반복적이고 다방향적인 형태학적 클로징 적용.
조명 강건성: 훈련 중 조명 변화를 시뮬레이션하기 위한 강도 스케일링 사용.
백본 업그레이드: 특징 추출기로 DINOv3의 성공적인 통합.

4. 결과

이 방법은 TESTpub, TESTpriv, TESTpriv,mix 세 가지 분할에 걸쳐 MVTec AD 2 데이터셋에서 평가되었습니다.

성능 지표:
- TESTpub: 평균 F1 점수 62.61% 및 AU-ROC0.05 83.93% 달성.
- TESTpriv: 평균 F1 점수 57.42% 달성.
- TESTpriv,mix: 평균 F1 점수 54.35% 달성.
비교:
- SuperADD 는 TESTpriv 에서 53.81%, TESTpriv,mix 에서 51.43% 를 기록한 이전 최첨단 방법 (VAND 3.0 의 ISVL) 을 능가했습니다.
- 또한 작년의 다른 상위 방법 (RoBiS, ASEG) 과 PatchCore, EfficientAD 와 같은 표준 베이스라인을 능가했습니다.
클래스별 성능:
- Fabric(TESTpriv 에서 88.47% F1) 과 Rice(73.83% F1) 에서 높은 성능이 관찰되었습니다.
- Can(TESTpub 에서 0.00% F1, TESTpriv 에서 11.59%) 은 인간 눈으로 거의 보이지 않는 미세한 결함으로 인해 성능이 낮았습니다.
- Wallplugs는 TESTpub 대비 TESTpriv 에서 성능이 크게 하락했는데, 이는 더 미묘한 결함과 지면 진실에서의 위양성 (false positive) 에 대한 낮은 허용도로 인한 것으로 추정됩니다.

5. 중요성 및 주장

본 논문은 SuperADD 를 산업용 이상 탐지를 위한 실제 배포 가능한 솔루션으로 위치시킵니다. 그 중요성은 다음과 같습니다:

학습 없는 효율성: 모델 재훈련을 피함으로써, 동적인 산업 환경의 핵심 요구 사항인 새로운 제품 클래스나 설계 변경에 대한 빠른 통합을 가능하게 합니다.
일반화: 단일 클래스 무관 구성이 개별 클래스 튜닝 없이도 다양한 객체 유형 (대량 화물, 질감 있는 것, 반사성, 투명성) 과 다양한 조명 조건을 효과적으로 처리할 수 있음을 보여줍니다.
분포 변화에 대한 강건성: DINOv3, 강도 증강, 패치 단위 처리의 결합은 획득 조건 변화로 인해 일반적으로 발생하는 성능 저하를 성공적으로 완화합니다.

저자들은 결손된 부분 (예: 깨진 조각) 이나 반사성 표면의 매우 얇은 스크래치 탐지의 어려움과 같은 한계를 인정하지만, 이 방법이 쌀과 호두와 같은 카테고리의 작은 결함과 높은 일관성을 가진 대규모 결함을 성공적으로 국소화했다고 강조합니다. 향후 연구로는 확산 모델을 통한 합성 이상을 포함하는 이중 메모리 뱅크 탐구가 제안되나, 이는 현재 학습 없는 주장의 범위를 벗어납니다.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track