VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "이상한 게 뭐야?"를 물어보는 방식의 한계

지금까지 이상 탐지 AI 들은 CLIP이라는 거대하고 유명한 AI 를 많이 사용했습니다. CLIP 은 **'눈 (이미지)'과 '입 (텍스트)'**을 모두 가진 AI 입니다.

기존 방식 (AnomalyCLIP 등):
- AI 가 결함을 찾으려면, 사람이 "이건 정상이다", "이건 결함이다"라고 **글 (텍스트)**로 설명을 해줘야 했습니다.
- 마치 통역사를 고용해서, "이 부품은 깨끗하다", "이 부품은 긁혔다"라고 영어로 말해주면, AI 가 그 말을 듣고 이미지를 비교하는 방식입니다.
- 단점: 통역사 (텍스트 인코더) 를 유지해야 하므로 시스템이 무겁고, 때로는 통역사가 말을 잘못 해석하거나 (학습 불안정), 불필요한 정보 (파라미터) 가 너무 많아서 비효율적입니다.

🧠 2. 해결책: "VisualAD" - 눈만 믿는 새로운 방식

이 논문은 **"결함을 찾는 데 정말 '글 (텍스트)'이 꼭 필요할까?"**라는 의문을 품었습니다. 결론은 **"아니요, 눈만으로도 충분합니다!"**였습니다.

VisualAD 의 핵심 아이디어:
- 통역사 (텍스트 부분) 를 아예 잘라내고, 눈 (이미지) 만 보는 AI로 만들었습니다.
- 대신 AI 의 뇌 (비전 트랜스포머) 안에 **'정상 토큰 (Normal Token)'**과 **'결함 토큰 (Abnormal Token)'**이라는 두 개의 특별한 메모지를 붙여넣었습니다.

🎨 비유: "명화 감식가"와 "두 개의 메모지"

상상해 보세요. 유명한 미술관 감식가 (AI) 가 그림을 보고 가짜를 찾아낸다고 합시다.

기존 방식: 감식가가 "이 그림은 진짜야", "저 그림은 가짜야"라고 종이에 적힌 설명서를 계속 읽고 그림을 비교합니다. 설명서가 길고 복잡할수록 감식가는 지칩니다.
VisualAD 방식: 설명서는 버리고, 감식가에게 두 개의 특수 안경을 씌워줍니다.
- 정상 안경: "이런 패턴은 다 정상이야"라고 기억합니다.
- 결함 안경: "이런 패턴은 이상해"라고 기억합니다.
- 이 두 안경이 그림을 보며 직접 "여기는 정상 안경과 안 맞네?", "여기는 결함 안경과 딱 맞네?"라고 스스로 판단합니다.

⚙️ 3. 어떻게 작동할까? (핵심 기술)

이 두 개의 메모지 (토큰) 가 어떻게 그림의 결함을 찾아낼까요? 두 가지 마법 같은 도구를 사용합니다.

① SCA (공간 인식 교차 주의력): "현장 조사관"

역할: 두 메모지가 그림의 구체적인 위치를 정확히 파악하도록 도와줍니다.
비유: 감식가가 "전체적으로 이상해"라고만 말하면 어디가 문제인지 모릅니다. SCA 는 **"이 메모지가 그림의 이 구석 (공간 정보) 을 집중적으로 살펴봐"**라고 지시합니다. 덕분에 아주 작은 흠집이나 미세한 병변도 놓치지 않고 찾아냅니다.

② SAF (자기 정렬 기능): "교정기"

역할: 그림의 특징을 다시 한번 다듬어 줍니다.
비유: 감식가가 처음에는 "이건 좀 이상한데?"라고 막연하게 생각할 수 있습니다. SAF 는 "잠깐, 이 부분을 다시 정리해보자. 정상인 부분과 비정상인 부분을 더 명확하게 구분해!"라고 정리 정돈을 시켜줍니다. 이렇게 하면 두 가지 개념이 더 뚜렷하게 갈라지게 됩니다.

🏆 4. 결과는 어떨까?

이 방식은 **산업 현장 (기계 부품 결함)**과 의료 (뇌 MRI, 안과 검사) 등 13 가지의 다양한 분야에서 테스트되었습니다.

성적: 기존에 가장 잘하던 방법들보다 더 정확했습니다.
장점:
- 가볍습니다: 불필요한 '통역사 (텍스트)'를 없애서 시스템이 99% 이상 가벼워졌습니다.
- 안정적입니다: 학습할 때 결과가 들쑥날쑥하지 않고 꾸준히 좋아집니다.
- 범용적입니다: 공장에서만 배운 AI 가 병원에서 새로운 질병을 찾아낼 수 있을 정도로 적응력이 뛰어납니다.

💡 5. 요약: 왜 이것이 중요한가?

이 연구는 **"복잡한 언어 설명 없이, 시각적인 특징만으로 결함을 찾아낼 수 있다"**는 것을 증명했습니다.

마치 숙련된 장인이 설명서를 보지 않고도 눈으로만 보고 "이건 정상, 저건 불량"을 바로 알아채는 것과 같습니다. VisualAD는 그 장인의 눈을 AI 에게 심어주어, 더 빠르고, 가볍고, 정확하게 세상을 지키는 데 기여할 것입니다.

한 줄 요약:

"글로 설명할 필요 없이, AI 가 눈으로만 보고 '정상'과 '결함'을 스스로 배워 더 가볍고 정확하게 찾아내는 기술!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 제로샷 이상 탐지 (Zero-Shot Anomaly Detection, ZSAD) 는 훈련 데이터에 존재하지 않는 새로운 카테고리에서 이상을 탐지하고 국소화하는 것을 목표로 합니다. 기존의 주류 방법은 CLIP 과 같은 시 - 언어 모델 (VLM) 을 활용하여, '정상'과 '비정상'을 나타내는 텍스트 프롬프트를 학습하거나 수동으로 설계한 후 이미지와 텍스트 간의 유사도를 계산하는 방식을 취합니다.
문제점:
- 복잡성과 불안정성: 기존 VLM 기반 방법은 텍스트 인코더와 교차 모달 (cross-modal) 정렬이 필요하여 파라미터가 중복되고 훈련이 불안정할 수 있습니다.
- 언어 의존성: 이상 탐지의 최종 결정이 단순히 '정상'과 '비정상'이라는 두 가지 잠재 벡터에 의해 이루어진다면, 텍스트 모달리티가 정말 필수적인지 의문이 제기됩니다.
- 실험적 관찰: 저자들은 AnomalyCLIP 을 수정하여 텍스트 인코더를 제거하고 시각적 특징만으로 두 개의 학습 가능한 벡터 (정상/비정상) 를 최적화하는 실험을 수행했습니다. 그 결과, 성능 저하 없이 파라미터 수를 99% 이상 줄일 수 있었고, 평가 곡선이 더 안정적이고 매끄러운 것을 확인했습니다. 이는 텍스트 프롬프트가 본질적인 의미 기반 (semantic grounding) 이 아니라, 시각적 프로토타입을 형성하는 간접적인 경로에 불과할 수 있음을 시사합니다.

2. 제안 방법: VisualAD (Methodology)

VisualAD 는 텍스트 인코더 없이 **순수히 시각적 (Vision-only)**인 프레임워크로, 고정된 (frozen) Vision Transformer (ViT) 백본을 기반으로 합니다.

학습 가능한 토큰 도입 (Learnable Tokens):
- ViT 토큰 시퀀스에 **비정상 토큰 ( $t_a$ )**과 정상 토큰 ( $t_n$ ) 두 개의 전역 학습 가능 토큰을 직접 삽입합니다.
- 다층 자기 주의 (Multi-layer Self-Attention) 를 통해 이 토큰들은 패치 토큰과 상호작용하며, 고수준의 정상/비정상 개념을 학습하고 패치들이 이상 관련 단서를 강조하도록 유도합니다.
공간 인식 교차 주의 (Spatial-Aware Cross-Attention, SCA):
- 전역 토큰은 공간적 위치 정보가 부족할 수 있으므로, SCA 모듈을 도입합니다.
- 학습 가능한 앵커 쿼리 (Anchor Queries) 를 사용하여 패치 특징에서 지역적인 공간 증거를 집계합니다.
- 토큰 가이드 게이트 메커니즘을 통해 각 토큰에 맞춰 공간 정보를 선택적으로 주입하여, 토큰의 이상 민감도를 테스트 샘플의 국소 구조에 맞게 동적으로 조정합니다.
자기 정렬 함수 (Self-Alignment Function, SAF):
- 각 레이어의 패치 특징을 재보정 (Recalibrate) 하기 위해 경량 MLP 기반의 SAF 를 사용합니다.
- 이는 고수준 토큰과 패치 특징 간의 정렬을 개선하여 이상 점수 산출 전 특징을 최적화합니다.
이상 점수 산출 및 손실 함수:
- 점수 계산: 각 레이어에서 재보정된 패치 특징과 강화된 토큰 간의 코사인 유사도 차이를 계산하여 레이어별 이상 맵을 생성하고, 이를 합산하여 최종 이상 맵을 만듭니다. 이미지 레벨 점수는 상위 1% 픽셀의 평균 점수로 결정합니다.
- 훈련 목적: 이미지 레벨 분류 (Binary Cross-Entropy), 픽셀 레벨 분할 (Focal Loss + Dice Loss), 그리고 토큰 간 명확한 분리 (Cosine-margin penalty) 를 위한 손실 함수를 통합하여 최적화합니다. 백본은 고정되고 토큰, SCA, SAF 만 학습됩니다.

3. 주요 기여 (Key Contributions)

텍스트의 불필요성 재검토: 제로샷 이상 탐지에서 텍스트 모달리티가 필수적이지 않으며, 차별적인 이상 특징을 시각적 단서만으로 학습할 수 있음을 증명했습니다.
VisualAD 프레임워크: 고정된 ViT 백본에 두 개의 학습 가능한 토큰을 주입하고, 다층 자기 주의와 SCA/SAF 모듈을 통해 정상/비정상을 인코딩하는 순수 시각적 프레임워크를 제안했습니다.
SCA 및 SAF 모듈: SCA 를 통해 토큰에 명시적인 공간 증거를 주입하고, SAF 를 통해 패치 특징을 재보정하여 안정적인 다층 정렬과 정확한 국소화를 가능하게 했습니다.
범용적인 성능: 산업 및 의료 도메인의 13 개 벤치마크에서 SOTA(최고 성능) 를 달성했으며, CLIP 및 DINOv2 백본 모두에 유연하게 적용 가능함을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: 산업 (MVTec-AD, VisA, BTAD 등 6 개) 및 의료 (OCT17, BrainMRI, Colonoscopy 등 7 개) 도메인의 13 개 데이터셋에서 평가했습니다.
성능 비교:
- WinCLIP, AnomalyCLIP, AdaCLIP 등 기존 SOTA 방법들과 비교하여 거의 모든 데이터셋에서 이미지 레벨 및 픽셀 레벨 성능에서 최상위권을 기록했습니다.
- 특히 CLIP 백본을 사용할 경우 이미지 분류 성능이, DINOv2 백본을 사용할 경우 픽셀 단위 분할 성능이 우수했습니다.
- 의료 데이터셋 (예: 피부, 뇌 MRI) 에서 기존 방법보다 더 명확한 경계와 적은 오탐지 (False Positive) 를 보여주었습니다.
효율성: AnomalyCLIP 대비 99% 적은 학습 파라미터로 동등하거나 더 나은 성능을 달성했습니다.
분석 (Ablation Study):
- SCA 와 SAF 모듈을 제거할 경우 성능이 크게 저하되어 각 모듈의 중요성을 확인했습니다.
- 앵커 쿼리 수는 4 개가 최적이며, 16 개 이상은 중복으로 인해 성능이 약간 떨어졌습니다.
- 여러 레이어 ({6, 12, 18, 24}) 의 특징을 융합하는 것이 단일 레이어보다 훨씬 우수한 성능을 보였습니다.
- PCA 시각화 결과, SAF 적용 후 정상과 비정상 클러스터가 명확하게 분리되고 분산이 주축을 따라 집중되는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: ZSAD 분야에서 텍스트 - 이미지 정렬에 의존하던 기존 패러다임에서 벗어나, 순수 시각적 (Vision-only) 접근법의 유효성을 입증했습니다.
실용성: 텍스트 인코더와 복잡한 프롬프트 학습이 불필요하여 모델이 더 가볍고, 훈련이 안정적이며, 다양한 백본에 쉽게 적용 가능합니다.
범용성: 산업 검사부터 의료 진단까지 다양한 도메인과 데이터셋에서 강력한 제로샷 일반화 능력을 보여주어, 실제 현장 적용 가능성을 높였습니다.

이 논문은 텍스트 모달리티의 의존성을 제거하면서도 오히려 더 효율적이고 안정적인 이상 탐지 시스템을 구축할 수 있음을 보여주는 중요한 연구로 평가됩니다.