Each language version is independently generated for its own context, not a direct translation.
1. 배경: AI 의 "자신감 과잉" 문제
상상해 보세요. AI 는 아주 유명한 요리사입니다. 이 요리사는 '불고기', '비빔밥', '김치찌개' 같은 **알려진 메뉴 (ID 데이터)**만 완벽하게 익혀서 요리합니다.
하지만 손님이 **"이건 뭐야?"**라고 묻는 **완전히 새로운 음식 (OOD 데이터, 예: 낯선 외계 식재료)**을 가져오면, 이 요리사는 당황하지 않고 오히려 **"아, 이건 불고기의 변형이겠지!"**라고 너무 자신 있게 잘못 말해버립니다. 이를 **OOD 탐지 (Out-of-Distribution Detection)**라고 하는데, AI 가 모르는 것을 "모른다"고 인정하고 거절하는 능력을 키우는 것이 목표입니다.
최근에는 CLIP이라는 AI 가 등장했습니다. CLIP 은 "사진"과 "글자"를 연결해서 공부한 거대 모델입니다. 예를 들어, '고양이' 사진과 '고양이'라는 글자를 연결해 둡니다.
2. 기존 방법의 문제점: "잘못된 비교"
기존 연구자들은 CLIP 을 이용해 새로운 음식을 구별할 때, 다음과 같은 실수를 저질렀습니다.
- 기존 방식 (Intra-modal): "이 새로운 음식이 '고양이'라는 글자와 얼마나 먼가?"를 비교했습니다. 즉, 글자끼리만 비교하거나 사진끼리만 비교한 거죠.
- 문제: CLIP 은 원래 사진과 글자를 서로 연결하는 데 최적화되어 있습니다. 그런데 글자끼리만 비교하는 건, 사진과 글자를 연결하는 CLIP 의 본질적인 능력과 맞지 않는 것입니다.
- 비유: 마치 요리사에게 "이 낯선 재료가 '고양이'라는 단어와 얼마나 다른지"만 물어보고 판단하게 하는 꼴입니다. 하지만 중요한 건 **"이 재료가 '고양이'라는 단어와 어울리는 사진 (고양이 사진) 과 얼마나 다른가?"**를 보는 것입니다. 기존 방법은 이 **일치감 (일관성)**을 무시해서, AI 가 가끔 엉뚱한 판단을 내리게 했습니다.
3. 이 연구의 해결책: "InterNeg" (상호 연결된 부정적 텍스트)
저자들은 이 문제를 해결하기 위해 InterNeg라는 새로운 방법을 제안했습니다. 핵심은 **"거리의 일관성"**입니다.
A. 텍스트 관점: "진짜 거리를 재는 자"
기존에는 단순히 글자들이 얼마나 다른지 (글자끼리) 재서 나쁜 단어 (부정적 텍스트) 를 골랐습니다.
하지만 InterNeg 는 **"이 글자가 실제 고양이 사진과 얼마나 먼가?"**를 기준으로 나쁜 단어를 고릅니다.
- 비유: "이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 동떨어져 있는가?"를 확인해서, 진짜로 고양이와 관련 없는 나쁜 단어들을 선별합니다. 이렇게 하면 CLIP 이 가장 잘하는 사진 - 글자 연결 능력을 최대한 활용하게 됩니다.
B. 시각적 관점: "실수한 것을 교정하는 거울"
인공지능이 시험을 치를 때, "이건 확실히 고양이도 아니야!"라고 매우 자신 있게 판단한 이상한 사진들이 있습니다.
- 기존 방식: 그냥 넘겼습니다.
- InterNeg 방식: "아, 이 사진은 확실히 고양이도 아니구나!"라고 판단된 그 사진을 다시 글자로 변환해버립니다. (이걸 '모달리티 인버전'이라고 합니다.)
- 비유: 요리사가 "이건 절대 불고기가 아니야!"라고 확신하는 이상한 재료를 보고, **"그럼 이 재료는 '불고기'라는 단어와 얼마나 먼가?"**를 계산해서, 그 거리 정보를 다시 글자 데이터로 만들어 추가합니다. 이렇게 하면 AI 가 더 많은 "아니요"의 예시를 배우게 되어, 진짜 모르는 것을 더 잘 구별하게 됩니다.
4. 결과: 왜 이 방법이 좋은가?
이 방법은 훈련 데이터 (ID) 를 추가로 학습시킬 필요도 없고, 외부 데이터도 필요 없습니다. 오직 CLIP 이 가진 능력만 활용하되, **비교하는 기준 (거리)**을 CLIP 의 본질에 맞게 맞춰주었을 뿐입니다.
- 성과: 실험 결과, 기존 방법들보다 훨씬 정확하게 "모르는 것"을 찾아냈습니다. 특히, 고양이와 비슷한 다른 동물 (Near-OOD) 을 구별하는 데서 큰 향상을 보였습니다.
- 핵심 메시지: "무작정 나쁜 예시를 모으는 게 아니라, AI 가 가장 잘하는 방식 (사진과 글자의 연결) 에 맞춰서 나쁜 예시를 고르자"는 것입니다.
요약
이 논문은 **"AI 가 모르는 것을 구별할 때, 기존 방식처럼 글자끼리만 비교하지 말고, AI 가 원래 잘하는 '사진과 글자의 연결'을 기준으로 비교해야 더 정확해진다"**는 것을 증명했습니다.
마치 요리사가 새로운 재료를 볼 때, 단순히 "이게 '고양이'라는 단어와 닮았나?"를 묻는 게 아니라, **"이 재료가 '고양이'라는 단어와 어울리는 실제 고양이 사진과 얼마나 닮지 않았나?"**를 확인하는 더 똑똑한 방식을 제안한 것입니다.