Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

이 논문은 비전 - 언어 모델 (VLM) 기반의 OOD 탐지 성능을 저해하는 내모달 거리 기반의 한계를 해결하기 위해, 텍스트와 시각적 관점에서 일관된 인터모달 거리를 활용하여 부정 텍스트를 선택하고 OOD 이미지를 텍스트 임베딩으로 변환하는 새로운 프레임워크 'InterNeg'를 제안하며, 이를 통해 다양한 벤치마크에서 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 의 "자신감 과잉" 문제

상상해 보세요. AI 는 아주 유명한 요리사입니다. 이 요리사는 '불고기', '비빔밥', '김치찌개' 같은 **알려진 메뉴 (ID 데이터)**만 완벽하게 익혀서 요리합니다.

하지만 손님이 **"이건 뭐야?"**라고 묻는 **완전히 새로운 음식 (OOD 데이터, 예: 낯선 외계 식재료)**을 가져오면, 이 요리사는 당황하지 않고 오히려 **"아, 이건 불고기의 변형이겠지!"**라고 너무 자신 있게 잘못 말해버립니다. 이를 **OOD 탐지 (Out-of-Distribution Detection)**라고 하는데, AI 가 모르는 것을 "모른다"고 인정하고 거절하는 능력을 키우는 것이 목표입니다.

최근에는 CLIP이라는 AI 가 등장했습니다. CLIP 은 "사진"과 "글자"를 연결해서 공부한 거대 모델입니다. 예를 들어, '고양이' 사진과 '고양이'라는 글자를 연결해 둡니다.

2. 기존 방법의 문제점: "잘못된 비교"

기존 연구자들은 CLIP 을 이용해 새로운 음식을 구별할 때, 다음과 같은 실수를 저질렀습니다.

  • 기존 방식 (Intra-modal): "이 새로운 음식이 '고양이'라는 글자와 얼마나 먼가?"를 비교했습니다. 즉, 글자끼리만 비교하거나 사진끼리만 비교한 거죠.
  • 문제: CLIP 은 원래 사진과 글자를 서로 연결하는 데 최적화되어 있습니다. 그런데 글자끼리만 비교하는 건, 사진과 글자를 연결하는 CLIP 의 본질적인 능력과 맞지 않는 것입니다.
  • 비유: 마치 요리사에게 "이 낯선 재료가 '고양이'라는 단어와 얼마나 다른지"만 물어보고 판단하게 하는 꼴입니다. 하지만 중요한 건 **"이 재료가 '고양이'라는 단어와 어울리는 사진 (고양이 사진) 과 얼마나 다른가?"**를 보는 것입니다. 기존 방법은 이 **일치감 (일관성)**을 무시해서, AI 가 가끔 엉뚱한 판단을 내리게 했습니다.

3. 이 연구의 해결책: "InterNeg" (상호 연결된 부정적 텍스트)

저자들은 이 문제를 해결하기 위해 InterNeg라는 새로운 방법을 제안했습니다. 핵심은 **"거리의 일관성"**입니다.

A. 텍스트 관점: "진짜 거리를 재는 자"

기존에는 단순히 글자들이 얼마나 다른지 (글자끼리) 재서 나쁜 단어 (부정적 텍스트) 를 골랐습니다.
하지만 InterNeg 는 **"이 글자가 실제 고양이 사진과 얼마나 먼가?"**를 기준으로 나쁜 단어를 고릅니다.

  • 비유: "이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 동떨어져 있는가?"를 확인해서, 진짜로 고양이와 관련 없는 나쁜 단어들을 선별합니다. 이렇게 하면 CLIP 이 가장 잘하는 사진 - 글자 연결 능력을 최대한 활용하게 됩니다.

B. 시각적 관점: "실수한 것을 교정하는 거울"

인공지능이 시험을 치를 때, "이건 확실히 고양이도 아니야!"라고 매우 자신 있게 판단한 이상한 사진들이 있습니다.

  • 기존 방식: 그냥 넘겼습니다.
  • InterNeg 방식: "아, 이 사진은 확실히 고양이도 아니구나!"라고 판단된 그 사진을 다시 글자로 변환해버립니다. (이걸 '모달리티 인버전'이라고 합니다.)
  • 비유: 요리사가 "이건 절대 불고기가 아니야!"라고 확신하는 이상한 재료를 보고, **"그럼 이 재료는 '불고기'라는 단어와 얼마나 먼가?"**를 계산해서, 그 거리 정보를 다시 글자 데이터로 만들어 추가합니다. 이렇게 하면 AI 가 더 많은 "아니요"의 예시를 배우게 되어, 진짜 모르는 것을 더 잘 구별하게 됩니다.

4. 결과: 왜 이 방법이 좋은가?

이 방법은 훈련 데이터 (ID) 를 추가로 학습시킬 필요도 없고, 외부 데이터도 필요 없습니다. 오직 CLIP 이 가진 능력만 활용하되, **비교하는 기준 (거리)**을 CLIP 의 본질에 맞게 맞춰주었을 뿐입니다.

  • 성과: 실험 결과, 기존 방법들보다 훨씬 정확하게 "모르는 것"을 찾아냈습니다. 특히, 고양이와 비슷한 다른 동물 (Near-OOD) 을 구별하는 데서 큰 향상을 보였습니다.
  • 핵심 메시지: "무작정 나쁜 예시를 모으는 게 아니라, AI 가 가장 잘하는 방식 (사진과 글자의 연결) 에 맞춰서 나쁜 예시를 고르자"는 것입니다.

요약

이 논문은 **"AI 가 모르는 것을 구별할 때, 기존 방식처럼 글자끼리만 비교하지 말고, AI 가 원래 잘하는 '사진과 글자의 연결'을 기준으로 비교해야 더 정확해진다"**는 것을 증명했습니다.

마치 요리사가 새로운 재료를 볼 때, 단순히 "이게 '고양이'라는 단어와 닮았나?"를 묻는 게 아니라, **"이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 닮지 않았나?"**를 확인하는 더 똑똑한 방식을 제안한 것입니다.