FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

이 논문은 대규모 언어 모델을 활용한 정교한 텍스트 설명 생성과 변형 가능한 교차 모달 상호작용을 통한 정확한 위치 파악을 결합하여, 기존 방법의 한계를 극복하고 제로샷 및 퓨샷 이상 탐지 성능을 획기적으로 향상시킨 FiLo++ 방법을 제안합니다.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **FiLo++**라는 새로운 인공지능 기술을 소개합니다. 이 기술은 공장에서 나쁜 제품 (불량품) 이나 병원에서 이상한 병변을 찾아내는 '이상 탐지 (Anomaly Detection)' 문제를 해결합니다.

기존 방법들은 새로운 물건을 검사하려면 먼저 정상적인 제품 수천 개를 보여줘야 학습이 가능했습니다. 하지만 FiLo++ 는 아예 학습 데이터가 없어도 (Zero-shot) 혹은 몇 장만 보여줘도 (Few-shot) 새로운 물건의 결함을 찾아낼 수 있습니다.

이 기술이 어떻게 작동하는지, 마치 **정교한 '수사관'과 '지도'**를 사용하는 과정처럼 쉽게 설명해 드리겠습니다.


1. 문제: 기존 수사관들은 너무 멍청했나요?

기존의 AI 수사관들은 결함을 찾을 때 두 가지 큰 실수를 저질렀습니다.

  • 실수 1: 너무 일반적인 설명만 썼습니다.
    • 예: "이건 고장 난 사진이야." vs "이건 정상인 사진이야."
    • 마치 "이 과일은 상했다"라고만 말하고, 구체적으로 "썩은 부분", "벌레 먹은 구멍", "색이 변한 부분"을 구분하지 못하는 것과 같습니다. 그래서 다양한 결함을 구별하기 어려웠습니다.
  • 실수 2: 지도 없이 막연하게 찾았습니다.
    • 결함이 있는 부분을 찾을 때, 배경 (예: 나무 판자, 벽) 까지 모두 다 검사하다가 "저게 뭐지?"라고 오해를 하거나, 결함의 모양이 불규칙하면 놓쳐버렸습니다.

2. 해결책: FiLo++ 의 두 가지 비밀 무기

FiLo++ 는 이 문제를 해결하기 위해 두 가지 핵심 도구를 개발했습니다.

🛠️ 무기 1: FusDes (정밀한 수사 노트 작성)

이것은 **대형 언어 모델 (LLM, 예: GPT-4)**을 활용하여 결함에 대한 정밀한 수사 노트를 만드는 과정입니다.

  • 창의적 비유:
    • 기존 수사관은 "범인은 흉악하다"라고만 적었습니다.
    • FiLo++ 의 수사관은 AI 에게 "이 물건 (예: 나무) 에 어떤 결함이 생길 수 있을까?"라고 물어봅니다. AI 는 "나무 껍질이 벗겨진 것", "색이 변한 것", "구멍이 뚫린 것" 등 구체적인 결함 종류를 수백 가지로 나열해 줍니다.
    • 그리고 AI 는 이 설명들을 고정된 문장학습 가능한 문장을 섞어서 가장 정확한 표현을 찾아냅니다. 마치 수사관이 사건 현장에 맞춰 가장 적합한 수사 용어를 선택하는 것과 같습니다.
  • 효과: "고장 난 것"이라는 막연한 말 대신, "이곳에 구멍이 뚫렸다"라고 정확히 말해주기 때문에, 결함을 훨씬 더 정확하게 찾아냅니다.

🗺️ 무기 2: DefLoc (정밀한 지도와 확대경)

이것은 결함이 정확히 어디에 있는지 찾아내는 과정입니다.

  • 창의적 비유:
    • Grounding DINO (초급 탐정): 먼저 AI 가 "이 사진에서 '물체'가 있는 곳"을 대략적으로 찾아냅니다. 배경 (벽이나 바닥) 은 무시하고 물체만 집중하는 것입니다.
    • 위치 정보 추가: "구멍이 났다"라고만 하는 게 아니라, **"오른쪽 위 구석에 구멍이 났다"**라고 위치를 함께 적어줍니다.
    • MDCI (변형 가능한 확대경): 결함은 모양이 제각각입니다. 동그란 구멍도 있고, 길쭉한 금도 있습니다. FiLo++ 는 **모양을 자유자재로 변형할 수 있는 '변형 가능한 확대경 (Deformable Convolution)'**을 사용합니다. 마치 점토를 주무르듯 결함의 모양에 맞춰 확대경을 변형시켜 결함을 정확히 감싸 잡습니다.

3. 몇 장만 보여줘도 잘하는 이유 (Few-Shot)

만약 새로운 물건을 검사해야 하는데, 정상 제품 사진이 1 장밖에 없다면 어떨까요?

  • 기존 방법: 1 장만으로는 정상 패턴을 알 수 없어 엉뚱한 곳을 결함으로 오인합니다.
  • FiLo++: 앞서 만든 **정밀한 지도 (DefLoc)**를 활용합니다. "물체 영역"만 집중해서 1 장의 정상 사진과 비교합니다. 배경 잡음을 무시하고 결함 영역만 쫓아다니기 때문에, 아주 적은 데이터로도 높은 정확도를 냅니다.

4. 요약: FiLo++ 가 왜 특별한가요?

  1. 지식 활용: AI 가 결함에 대한 구체적인 설명을 스스로 만들어냅니다. (단순한 '고장'이 아닌 '구멍', '균열' 등 구체적)
  2. 위치 감각: 결함이 어디에 있는지, 어떤 모양인지 정확히 파악합니다. (배경 잡음 제거 + 모양에 맞는 확대경)
  3. 적응력: 학습 데이터가 거의 없어도 새로운 물건을 잘 검사합니다.

한 줄 결론:
FiLo++ 는 **"구체적인 수사 노트 (FusDes)"**와 **"변형 가능한 정밀 지도 (DefLoc)"**를 통해, 기존 AI 들이 놓치던 미세한 결함까지 찾아내는 초고성능 이상 탐지 시스템입니다. 이는 공장의 불량품 검사나 병원의 초기 암 진단 등, 데이터가 부족한 상황에서도 큰 도움을 줄 것으로 기대됩니다.