VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

이 논문은 텍스트 인코더 없이 비전 트랜스포머 기반의 학습 가능한 토큰과 공간 인식 어텐션 모듈을 활용하여 다양한 도메인에서 최첨단 성능을 달성하는 언어 없는 제로샷 이상 탐지 프레임워크인 'VisualAD'를 제안합니다.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "이상한 게 뭐야?"를 물어보는 방식의 한계

지금까지 이상 탐지 AI 들은 CLIP이라는 거대하고 유명한 AI 를 많이 사용했습니다. CLIP 은 **'눈 (이미지)'과 '입 (텍스트)'**을 모두 가진 AI 입니다.

  • 기존 방식 (AnomalyCLIP 등):
    • AI 가 결함을 찾으려면, 사람이 "이건 정상이다", "이건 결함이다"라고 **글 (텍스트)**로 설명을 해줘야 했습니다.
    • 마치 통역사를 고용해서, "이 부품은 깨끗하다", "이 부품은 긁혔다"라고 영어로 말해주면, AI 가 그 말을 듣고 이미지를 비교하는 방식입니다.
    • 단점: 통역사 (텍스트 인코더) 를 유지해야 하므로 시스템이 무겁고, 때로는 통역사가 말을 잘못 해석하거나 (학습 불안정), 불필요한 정보 (파라미터) 가 너무 많아서 비효율적입니다.

🧠 2. 해결책: "VisualAD" - 눈만 믿는 새로운 방식

이 논문은 **"결함을 찾는 데 정말 '글 (텍스트)'이 꼭 필요할까?"**라는 의문을 품었습니다. 결론은 **"아니요, 눈만으로도 충분합니다!"**였습니다.

  • VisualAD 의 핵심 아이디어:
    • 통역사 (텍스트 부분) 를 아예 잘라내고, 눈 (이미지) 만 보는 AI로 만들었습니다.
    • 대신 AI 의 뇌 (비전 트랜스포머) 안에 **'정상 토큰 (Normal Token)'**과 **'결함 토큰 (Abnormal Token)'**이라는 두 개의 특별한 메모지를 붙여넣었습니다.

🎨 비유: "명화 감식가"와 "두 개의 메모지"

상상해 보세요. 유명한 미술관 감식가 (AI) 가 그림을 보고 가짜를 찾아낸다고 합시다.

  1. 기존 방식: 감식가가 "이 그림은 진짜야", "저 그림은 가짜야"라고 종이에 적힌 설명서를 계속 읽고 그림을 비교합니다. 설명서가 길고 복잡할수록 감식가는 지칩니다.
  2. VisualAD 방식: 설명서는 버리고, 감식가에게 두 개의 특수 안경을 씌워줍니다.
    • 정상 안경: "이런 패턴은 다 정상이야"라고 기억합니다.
    • 결함 안경: "이런 패턴은 이상해"라고 기억합니다.
    • 이 두 안경이 그림을 보며 직접 "여기는 정상 안경과 안 맞네?", "여기는 결함 안경과 딱 맞네?"라고 스스로 판단합니다.

⚙️ 3. 어떻게 작동할까? (핵심 기술)

이 두 개의 메모지 (토큰) 가 어떻게 그림의 결함을 찾아낼까요? 두 가지 마법 같은 도구를 사용합니다.

① SCA (공간 인식 교차 주의력): "현장 조사관"

  • 역할: 두 메모지가 그림의 구체적인 위치를 정확히 파악하도록 도와줍니다.
  • 비유: 감식가가 "전체적으로 이상해"라고만 말하면 어디가 문제인지 모릅니다. SCA 는 **"이 메모지가 그림의 이 구석 (공간 정보) 을 집중적으로 살펴봐"**라고 지시합니다. 덕분에 아주 작은 흠집이나 미세한 병변도 놓치지 않고 찾아냅니다.

② SAF (자기 정렬 기능): "교정기"

  • 역할: 그림의 특징을 다시 한번 다듬어 줍니다.
  • 비유: 감식가가 처음에는 "이건 좀 이상한데?"라고 막연하게 생각할 수 있습니다. SAF 는 "잠깐, 이 부분을 다시 정리해보자. 정상인 부분과 비정상인 부분을 더 명확하게 구분해!"라고 정리 정돈을 시켜줍니다. 이렇게 하면 두 가지 개념이 더 뚜렷하게 갈라지게 됩니다.

🏆 4. 결과는 어떨까?

이 방식은 **산업 현장 (기계 부품 결함)**과 의료 (뇌 MRI, 안과 검사) 등 13 가지의 다양한 분야에서 테스트되었습니다.

  • 성적: 기존에 가장 잘하던 방법들보다 더 정확했습니다.
  • 장점:
    • 가볍습니다: 불필요한 '통역사 (텍스트)'를 없애서 시스템이 99% 이상 가벼워졌습니다.
    • 안정적입니다: 학습할 때 결과가 들쑥날쑥하지 않고 꾸준히 좋아집니다.
    • 범용적입니다: 공장에서만 배운 AI 가 병원에서 새로운 질병을 찾아낼 수 있을 정도로 적응력이 뛰어납니다.

💡 5. 요약: 왜 이것이 중요한가?

이 연구는 **"복잡한 언어 설명 없이, 시각적인 특징만으로 결함을 찾아낼 수 있다"**는 것을 증명했습니다.

마치 숙련된 장인이 설명서를 보지 않고도 눈으로만 보고 "이건 정상, 저건 불량"을 바로 알아채는 것과 같습니다. VisualAD는 그 장인의 눈을 AI 에게 심어주어, 더 빠르고, 가볍고, 정확하게 세상을 지키는 데 기여할 것입니다.

한 줄 요약:

"글로 설명할 필요 없이, AI 가 눈으로만 보고 '정상'과 '결함'을 스스로 배워 더 가볍고 정확하게 찾아내는 기술!"