Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 의 "자신감 과잉" 문제

상상해 보세요. AI 는 아주 유명한 요리사입니다. 이 요리사는 '불고기', '비빔밥', '김치찌개' 같은 **알려진 메뉴 (ID 데이터)**만 완벽하게 익혀서 요리합니다.

하지만 손님이 **"이건 뭐야?"**라고 묻는 **완전히 새로운 음식 (OOD 데이터, 예: 낯선 외계 식재료)**을 가져오면, 이 요리사는 당황하지 않고 오히려 **"아, 이건 불고기의 변형이겠지!"**라고 너무 자신 있게 잘못 말해버립니다. 이를 **OOD 탐지 (Out-of-Distribution Detection)**라고 하는데, AI 가 모르는 것을 "모른다"고 인정하고 거절하는 능력을 키우는 것이 목표입니다.

최근에는 CLIP이라는 AI 가 등장했습니다. CLIP 은 "사진"과 "글자"를 연결해서 공부한 거대 모델입니다. 예를 들어, '고양이' 사진과 '고양이'라는 글자를 연결해 둡니다.

2. 기존 방법의 문제점: "잘못된 비교"

기존 연구자들은 CLIP 을 이용해 새로운 음식을 구별할 때, 다음과 같은 실수를 저질렀습니다.

기존 방식 (Intra-modal): "이 새로운 음식이 '고양이'라는 글자와 얼마나 먼가?"를 비교했습니다. 즉, 글자끼리만 비교하거나 사진끼리만 비교한 거죠.
문제: CLIP 은 원래 사진과 글자를 서로 연결하는 데 최적화되어 있습니다. 그런데 글자끼리만 비교하는 건, 사진과 글자를 연결하는 CLIP 의 본질적인 능력과 맞지 않는 것입니다.
비유: 마치 요리사에게 "이 낯선 재료가 '고양이'라는 단어와 얼마나 다른지"만 물어보고 판단하게 하는 꼴입니다. 하지만 중요한 건 **"이 재료가 '고양이'라는 단어와 어울리는 사진 (고양이 사진) 과 얼마나 다른가?"**를 보는 것입니다. 기존 방법은 이 **일치감 (일관성)**을 무시해서, AI 가 가끔 엉뚱한 판단을 내리게 했습니다.

3. 이 연구의 해결책: "InterNeg" (상호 연결된 부정적 텍스트)

저자들은 이 문제를 해결하기 위해 InterNeg라는 새로운 방법을 제안했습니다. 핵심은 **"거리의 일관성"**입니다.

A. 텍스트 관점: "진짜 거리를 재는 자"

기존에는 단순히 글자들이 얼마나 다른지 (글자끼리) 재서 나쁜 단어 (부정적 텍스트) 를 골랐습니다.
하지만 InterNeg 는 **"이 글자가 실제 고양이 사진과 얼마나 먼가?"**를 기준으로 나쁜 단어를 고릅니다.

비유: "이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 동떨어져 있는가?"를 확인해서, 진짜로 고양이와 관련 없는 나쁜 단어들을 선별합니다. 이렇게 하면 CLIP 이 가장 잘하는 사진 - 글자 연결 능력을 최대한 활용하게 됩니다.

B. 시각적 관점: "실수한 것을 교정하는 거울"

인공지능이 시험을 치를 때, "이건 확실히 고양이도 아니야!"라고 매우 자신 있게 판단한 이상한 사진들이 있습니다.

기존 방식: 그냥 넘겼습니다.
InterNeg 방식: "아, 이 사진은 확실히 고양이도 아니구나!"라고 판단된 그 사진을 다시 글자로 변환해버립니다. (이걸 '모달리티 인버전'이라고 합니다.)
비유: 요리사가 "이건 절대 불고기가 아니야!"라고 확신하는 이상한 재료를 보고, **"그럼 이 재료는 '불고기'라는 단어와 얼마나 먼가?"**를 계산해서, 그 거리 정보를 다시 글자 데이터로 만들어 추가합니다. 이렇게 하면 AI 가 더 많은 "아니요"의 예시를 배우게 되어, 진짜 모르는 것을 더 잘 구별하게 됩니다.

4. 결과: 왜 이 방법이 좋은가?

이 방법은 훈련 데이터 (ID) 를 추가로 학습시킬 필요도 없고, 외부 데이터도 필요 없습니다. 오직 CLIP 이 가진 능력만 활용하되, **비교하는 기준 (거리)**을 CLIP 의 본질에 맞게 맞춰주었을 뿐입니다.

성과: 실험 결과, 기존 방법들보다 훨씬 정확하게 "모르는 것"을 찾아냈습니다. 특히, 고양이와 비슷한 다른 동물 (Near-OOD) 을 구별하는 데서 큰 향상을 보였습니다.
핵심 메시지: "무작정 나쁜 예시를 모으는 게 아니라, AI 가 가장 잘하는 방식 (사진과 글자의 연결) 에 맞춰서 나쁜 예시를 고르자"는 것입니다.

요약

이 논문은 **"AI 가 모르는 것을 구별할 때, 기존 방식처럼 글자끼리만 비교하지 말고, AI 가 원래 잘하는 '사진과 글자의 연결'을 기준으로 비교해야 더 정확해진다"**는 것을 증명했습니다.

마치 요리사가 새로운 재료를 볼 때, 단순히 "이게 '고양이'라는 단어와 닮았나?"를 묻는 게 아니라, **"이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 닮지 않았나?"**를 확인하는 더 똑똑한 방식을 제안한 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 분포 외 (Out-of-Distribution, OOD) 검출은 미지의 클래스에서 온 샘플을 식별하여 오픈 월드 환경에서 머신러닝 모델의 신뢰성을 보장하는 핵심 기술입니다. 최근 비전 - 언어 모델 (VLM, 예: CLIP) 의 강력한 멀티모달 표현 능력을 활용하여 OOD 검출 성능을 높이는 연구가 활발합니다.
기존 방법의 한계:
- 기존 방법들 (NegLabel, AdaNeg 등) 은 OOD 검출 시 **단일 모달리티 내 거리 (Intra-modal distance)**를 주로 활용합니다. 예를 들어, 텍스트 공간에서 ID 라벨과 '부정 텍스트 (Negative Texts)' 간의 거리나, 이미지 공간에서 테스트 이미지와 이미지 프록시 간의 거리를 비교합니다.
- 근본적인 불일치 (Inconsistency): CLIP 과 같은 VLM 은 **이미지 - 텍스트 간의 거리 (Inter-modal distance)**를 최적화하도록 학습되었습니다. 그러나 기존 방법들은 단일 모달리티 내 거리를 사용하여 OOD 점수를 계산함으로써, 모델이 최적화된 목적 함수 (Inter-modal) 와 실제 검출 메커니즘 (Intra-modal) 간의 불일치를 초래합니다.
- 결과: 이로 인해 ID(분포 내) 이미지가 OOD 로 잘못 분류되거나 (ID Misclassification), OOD 검출 성능이 최적이 아닌 수준에 머무르게 됩니다.

2. 제안 방법: InterNeg (Methodology)

저자들은 VLM 의 최적화 목표와 일관된 **모달리티 간 거리 (Inter-modal distance)**를 기반으로 한 새로운 프레임워크 InterNeg를 제안합니다. 이 방법은 ID 데이터나 추가 데이터에 대한 학습 없이도 작동합니다.

2.1. 텍스트 관점: 모달리티 간 유도 부정 텍스트 선택 (Inter-modal Guided Negative Text Selection)

ID 이미지 프록시 생성: 각 ID 클래스에서 무작위로 샘플링한 이미지들을 CLIP 이미지 인코더에 통과시켜 클래스별 평균 임베딩 (ID Image Proxies, $p_i$ ) 을 생성합니다.
기준 거리 설정: ID 텍스트 프록시 ( $e_i$ ) 와 ID 이미지 프록시 ( $p_i$ ) 간의 코사인 거리를 기반으로 **ID 모달리티 간 기준 거리 ( $d_i^{base}$ )**를 정의합니다.
부정 텍스트 선별: 대규모 어휘 데이터베이스 (WordNet 등) 에서 후보 텍스트를 추출할 때, 해당 텍스트가 모든 ID 클래스의 이미지 프록시와 가지는 모달리티 간 거리가 기준 거리 ( $d_i^{base}$ $d_{i}^{ba se}$ ) 보다 크게 되는 텍스트만을 선택합니다.
- 이는 선택된 부정 텍스트가 ID 이미지 - 텍스트 쌍과 명확하게 구별되도록 보장하여, CLIP 의 최적화 목표와 일관성을 유지합니다.

2.2. 시각 관점: 모달리티 간 유도 추가 부정 임베딩 생성 (Inter-modal Guided Extra Negative Text Embeddings)

고신뢰도 OOD 이미지 역전환 (Inversion): 추론 단계에서 OOD 점수가 낮은 (고신뢰도 OOD 로 판단된) 이미지를 식별합니다.
텍스트 공간 역전환: 이러한 OOD 이미지를 텍스트 공간으로 역전환 (Modality Inversion) 하여 추가 부정 텍스트 임베딩을 생성합니다. 이는 이미지와 텍스트 간의 거리를 최소화하도록 최적화되는 과정입니다.
동적 필터링 (Dynamic Filtering): 고정된 임계값으로 인해 노이즈가 포함된 OOD 이미지가 선택될 수 있으므로, 생성된 추가 임베딩에 대해 앞서 정의한 **모달리티 간 유도 기준 ( $d_i(e_v^-) > d_i^{base}$ )**을 적용하여 필터링합니다.
최종 점수 계산: 선별된 부정 텍스트와 필터링된 추가 부정 임베딩을 모두 활용하여 최종 OOD 점수를 계산합니다.

3. 주요 기여 (Key Contributions)

문제 인식: 최초로 OOD 검출 과정에서 사용되는 '단일 모달리티 내 거리'와 CLIP 이 최적화한 '모달리티 간 거리' 사이의 불일치가 성능 저하의 원인이 됨을 규명했습니다.
InterNeg 제안: 학습 데이터 (ID 또는 추가 데이터) 없이도 텍스트와 시각 관점 모두에서 일관된 모달리티 간 거리를 활용하는 간단하면서도 효과적인 프레임워크를 제안했습니다.
성능 입증: 다양한 벤치마크에서 기존 최첨단 (SOTA) 방법들을 압도하는 성능을 달성했으며, 특히 Near-OOD(유사 분포) 환경에서의 성능 향상이 두드러졌습니다.

4. 실험 결과 (Results)

실험은 ImageNet-1K 를 ID 데이터로 사용하며, Four-OOD 벤치마크와 OpenOOD 벤치마크 (Near-OOD 및 Far-OOD) 에서 수행되었습니다.

Four-OOD 벤치마크 (ImageNet-1K):
- 기존 SOTA 방법인 AdaNeg 대비 FPR95(95% TPR 기준 오검출률) 를 3.47% 감소시켰습니다.
- AUROC(수신자 작동 특성 곡선 아래 면적) 를 0.77% 향상시켰습니다.
- InterNeg: AUROC 97.43%, FPR95 14.04% (AdaNeg 대비 AUROC 96.66%, FPR95 18.92%).
Near-OOD 벤치마크 (OpenOOD):
- 유사한 분포의 OOD 데이터를 다루는 난이도 높은 환경에서 AUROC 5.50% 향상, FPR95 2.09% 감소를 기록하여 기존 제로샷 방법들보다 월등히 우수한 성능을 보였습니다.
Robustness (강건성):
- ID/OOD 데이터 비율이 극단적으로 불균형한 상황에서도 일관된 성능을 유지했습니다.
- 다양한 CLIP 아키텍처 (ResNet, ViT) 및 교차 도메인 (Cross-domain) 설정에서도 효과적이었습니다.
- 추론 비용 (Inference Cost) 은 기존 방법 대비 미미한 오버헤드만 발생했습니다.

5. 의의 및 결론 (Significance)

이 논문은 VLM 기반 OOD 검출 분야에서 **거리 측정의 일관성 (Distance Consistency)**이 얼마나 중요한지를 강조했습니다. 기존 방법들이 단순히 부정 텍스트의 양을 늘리거나 단일 모달리티 거리를 사용하는 데 그쳤다면, InterNeg 는 VLM 이 본질적으로 학습한 '이미지 - 텍스트 매칭' 원리를 OOD 검출 로직에 정교하게 통합했습니다.

이는 학습 데이터 없이도 (Zero-shot) 높은 신뢰도를 가진 OOD 검출 시스템을 구축할 수 있음을 보여주며, 자율주행, 의료 진단, 위험 콘텐츠 식별 등 고위험 오픈 월드 시나리오에서 AI 시스템의 안전성과 신뢰성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.