MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"MM-TS"**라는 새로운 인공지능 학습 방법을 소개합니다. 이 방법을 쉽게 이해할 수 있도록 **'학교 반 친구들'**과 **'선생님의 시험 점수 조절'**에 비유해서 설명해 드릴게요.

🎓 배경: 인공지능이 배우는 방식 (대조 학습)

인공지능 (AI) 은 사진을 보고 그 사진에 맞는 설명 (텍스트) 을 찾거나, 반대로 설명을 보고 사진을 찾는 일을 배웁니다. 이를 위해 AI 는 '비슷한 것끼리는 끌어당기고, 다른 것끼리는 밀어내는' 힘을 조절하며 학습합니다.

비유: 선생님이 학생들을 교실 한가운데 모아두고, "너희는 친구니까 서로 가까이 서라 (끌어당김)"고 하고, "너희는 남이니까 서로 멀리 떨어져 있어라 (밀어냄)"고 하는 상황입니다.

📉 문제: '긴 꼬리' 데이터의 불공평함

하지만 현실의 데이터는 공평하지 않습니다.

헤드 (Head): '개', '고양이', '자동차'처럼 아주 흔한 주제들은 데이터가 수만 개나 있습니다.
테일 (Tail): '라쿤이 피자를 먹는 모습'이나 '특수한 요리법'처럼 드문 주제는 데이터가 몇 개뿐입니다.

기존 AI 는 흔한 주제 (헤드) 에만 집중해서 배우고, 드문 주제 (테일) 는 무시해버리는 경향이 있었습니다. 마치 수업 시간에 인기 많은 학생들만 불러서 질문하고, 조용한 학생들은 무시하는 것과 같습니다.

💡 해결책: MM-TS (온도와 마진 스케줄)

이 논문은 **"학습할 때 온도와 밀어내는 힘을 상황에 따라 똑똑하게 조절하자"**고 제안합니다. 이를 MM-TS라고 부릅니다.

1. 온도를 조절하자 (Temperature Schedule)

AI 가 학습할 때 사용하는 '온도'라는 숫자가 있습니다. 이 온도는 학생들을 얼마나 세밀하게 구분할지를 결정합니다.

낮은 온도 (차가운 날): 학생들을 아주 세밀하게 구분합니다. "너와 너는 비슷해 보이지만, 사실은 다른 사람이다!"라고 아주 작은 차이도 찾아냅니다.
- 용도: 드문 주제 (테일) 에게 적합합니다. 드문 주제는 흔한 주제들과 섞이지 않게 개별적으로 확실히 구분해줘야 하기 때문입니다.
높은 온도 (따뜻한 날): 학생들을 큰 그룹으로 묶어줍니다. "너와 너는 같은 '축구 선수' 그룹이야!"라고 큰 범주로 묶습니다.
- 용도: 흔한 주제 (헤드) 에게 적합합니다. 흔한 주제는 너무 세세하게 구분하면 오히려 혼란스러우니, 큰 의미의 그룹을 형성하는 것이 좋습니다.

MM-TS 의 아이디어:
학습 초반에는 온도를 높여 큰 그룹을 만들고, 나중에는 온도를 낮춰 세부적인 차이를 배우게 합니다. 마치 아이들을 먼저 '축구부', '음악부'로 큰 그룹을 나누고, 나중에 '김철수', '이영희'로 이름을 하나하나 외우게 하는 과정과 같습니다.

2. 드문 학생을 특별 대우하자 (Individual Adjustment)

그런데 모든 학생에게 같은 온도를 적용하면 안 됩니다.

흔한 주제 (헤드): 이미 데이터가 많으니, 큰 그룹을 형성하게 온도를 높게 설정합니다.
드문 주제 (테일): 데이터가 적어 다른 흔한 주제들과 섞일 위험이 있으니, 온도를 낮게 설정하여 확실하게 밀어냅니다.

핵심 기술:
이 논문은 **텍스트 (설명)**를 보고 데이터가 얼마나 흔한지 미리 파악합니다.

"이 사진의 설명에 '개'라는 단어가 자주 나오네? → 흔한 주제야. 온도를 높여 그룹으로 묶어줘."
"이 설명은 '보라색 코끼리가 우주선을 탄다'는 드문 내용이네? → 드문 주제야. 온도를 낮춰서 확실하게 구분해줘."

이렇게 각 학생 (데이터) 마다 온도를 다르게 조절해서, 드문 주제도 공평하게 잘 배우게 합니다.

🏆 결과: 왜 이 방법이 좋은가요?

이 방법을 적용한 AI 는 다음과 같은 성과를 냈습니다.

드문 주제도 잘 알아봄: 평소엔 잘 못 찾던 '특이한 요리'나 '드문 행동'도 정확하게 찾아냈습니다.
흔한 주제도 더 잘 구분됨: 흔한 주제들도 큰 그룹 안에서 더 잘 정리되었습니다.
새로운 기록 (State-of-the-art): Flickr30K, COCO, EPIC-KITCHENS 등 여러 유명한 데이터셋에서 기존 최고의 AI 보다 더 좋은 점수를 받았습니다.

📝 한 줄 요약

"AI 가 배울 때, 흔한 것은 '큰 그룹'으로, 드문 것은 '개별 학생'으로 구분해서 온도를 조절해 주는 똑똑한 선생님 (MM-TS) 을 도입하자!"

이 방법은 인공지능이 불공평한 데이터 세상에서도 모든 것을 공정하고 정확하게 이해할 수 있도록 도와주는 혁신적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대비 학습 (Contrastive Learning) 은 단일 모달리티 (이미지 등) 및 다중 모달리티 (이미지 - 텍스트 등) 프레임워크에서 표현 학습의 핵심 기법으로 자리 잡았습니다. 이는 긍정 쌍 (positive pairs) 은 가깝게, 부정 쌍 (negative pairs) 은 멀게 만드는 원리를 기반으로 합니다.
문제점:
1. 장기 꼬리 (Long-Tail) 분포: 실제 다중 모달리티 데이터셋 (예: EPIC-KITCHENS, YouCook2) 은 빈번한 클래스 (Head) 와 드문 클래스 (Tail) 간의 불균형이 심한 장기 꼬리 분포를 따릅니다.
2. 고정된 온도 파라미터의 한계: 기존 대비 학습 (InfoNCE 손실 등) 은 학습 중 온도 파라미터 ( $\tau$ $τ$ ) 를 고정하거나 단순한 하이퍼파라미터로 취급합니다.
  - 낮은 $\tau$ : 부정 샘플 간의 강한 반발력을 유도하여 개별 인스턴스 구별 (Instance Discrimination) 에 유리하지만, 장기 꼬리 데이터의 드문 클래스가 과적합되거나 소외될 수 있습니다.
  - 높은 $\tau$ : 부정 샘플에 대한 반발력을 완화하여 의미론적 군집 (Semantic Clustering) 형성을 돕지만, 개별 샘플의 구별력이 떨어질 수 있습니다.
3. 다중 모달리티의 특수성: 단일 모달리티의 불균형 문제 해결 기법을 다중 모달리티에 직접 적용하기 어렵습니다. 특히 텍스트와 이미지의 분포를 정확히 추정하는 것이 어렵습니다.

2. 제안 방법: MM-TS (Methodology)

저자들은 **다중 모달리티 온도 및 마진 스케줄 (Multi-Modal Temperature and Margin Schedules, MM-TS)**을 제안합니다. 이는 학습 데이터의 국소적 분포를 고려하여 동적으로 온도 (또는 마진) 를 조절하는 프레임워크입니다.

핵심 구성 요소

동적 온도 스케줄링 (Dynamic Temperature Scheduling):
- 학습 진행에 따라 코사인 스케줄 (Cosine Schedule) 을 따르는 기본 온도 ( $\tau_{base}$ ) 를 도입합니다.
- 학습 초기에는 낮은 온도로 개별 인스턴스 구별력을 높이고, 후기에는 높은 온도로 의미론적 군집 형성을 돕는 유연한 학습 환경을 제공합니다.
샘플별 개별 온도 조절 (Individual Temperature Regulation):
- 분포 추정: 다중 모달리티 데이터의 특성 (텍스트와 이미지의 정렬됨) 을 활용합니다. 시각 데이터의 분포를 추정하기 위해 텍스트 모달리티 (주석/캡션) 를 사용합니다.
  - Sentence-BERT 등을 사용하여 텍스트 임베딩을 생성하고 K-Means 클러스터링을 수행합니다.
  - 클러스터 크기가 큰 경우 (빈번한 개념) $\rightarrow$ 높은 온도 할당 (군집화 유도).
  - 클러스터 크기가 작은 경우 (드문 개념, Tail 클래스) $\rightarrow$ 낮은 온도 할당 (강한 개별 구별력 유도).
- 수식: 각 샘플 $i$ 의 최종 온도 $\tau_i$ 는 다음과 같이 계산됩니다.
  $\tau_i = \tau_{base}(t) + sh(c_i)$
  여기서 $sh(c_i)$ 는 해당 샘플이 속한 클러스터 $c_i$ 의 크기에 비례하는 시프트 (shift) 값입니다.
Max-Margin Loss 로의 확장:
- 기존 InfoNCE 손실뿐만 아니라, 장기 꼬리 데이터 분석에서 널리 쓰이는 Max-Margin Loss에도 이 개념을 적용합니다.
- 온도 파라미터 대신 **마진 (Margin, $m$ )**을 동적으로 조절하여 부정 샘플의 반발 강도를 제어합니다. 이는 InfoNCE 와 Max-Margin 두 가지 주요 접근법을 통합하는 효과를 가집니다.

3. 주요 기여 (Key Contributions)

새로운 다중 모달리티 프레임워크: 장기 꼬리 데이터에 대한 대비 학습을 위해, 코사인 스케줄과 샘플별 분포 기반 조정을 결합한 MM-TS 를 제안했습니다.
손실 함수의 일반화: 기존 InfoNCE 프레임워크를 넘어 널리 사용되는 Max-Margin Loss 까지 온도 스케줄링 개념을 확장했습니다. 이는 특히 안구 중심 (Egocentric) 비디오 분석 등 Max-Margin 이 주류인 분야에서 중요한 기여입니다.
범용성 입증: 이미지 - 텍스트 (Flickr30K, MSCOCO) 및 비디오 - 텍스트 (EPIC-KITCHENS-100, YouCook2) 등 다양한 장기 꼬리 데이터셋에서 SOTA 성능을 달성했습니다.

4. 실험 결과 (Results)

저자들은 CC3M(사전 학습), Flickr30K, MSCOCO, EPIC-KITCHENS-100, YouCook2 등 4 개의 주요 데이터셋에서 실험을 수행했습니다.

Flickr30K & MSCOCO (Zero-shot Retrieval):
- CLIP 기반 모델에 MM-TS 를 적용한 결과, Flickr30K 에서 텍스트 - 이미지 검색 (TR@1) 성능이 3.4% 향상되었고, MSCOCO 에서 1.5% 향상되었습니다.
EPIC-KITCHENS-100 (Video-Text Retrieval):
- Max-Margin Loss 기반의 AVION 모델에 MM-TS 를 적용한 결과, 평균 mAP 가 3% 이상 향상되었으며, 모든 평가 지표에서 새로운 SOTA 를 달성했습니다.
YouCook2 (Video Retrieval):
- VAST 모델 기반 실험에서 텍스트 - 비디오 검색 성능이 기존 모델 대비 2.2% ~ 4% 향상되어 새로운 SOTA 를 기록했습니다.
Ablation Study:
- 동적 스케줄링 (TS) 과 개별 클러스터 시프트 (ICS) 가 모두 성능 향상에 기여하며, 두 요소를 결합했을 때 가장 큰 효과를 보임을 확인했습니다.
- 분포 추정 시 텍스트 임베딩을 사용하는 것이 시각 임베딩을 사용하는 것보다 더 효과적이었습니다.

5. 의의 및 결론 (Significance)

이론적 통합: 단일 모달리티 대비 학습에서 발견된 '온도 조절의 중요성'을 다중 모달리티 영역으로 성공적으로 확장하고, InfoNCE 와 Max-Margin 두 가지 상이한 손실 함수를 하나의 체계 (MM-TS) 로 통합했습니다.
실용적 가치: 장기 꼬리 분포를 가진 실제 세계 데이터 (비디오, 이미지) 에서 드문 클래스의 표현 학습을 개선하면서도 빈번한 클래스의 군집화도 유지하여, 모델의 전반적인 일반화 성능을 높였습니다.
간결한 구현: 복잡한 아키텍처 변경이나 추가 네트워크 없이, 기존 대비 학습 프레임워크의 온도 파라미터만 동적으로 조정함으로써 높은 성능 향상을 이끌어냈습니다.

이 연구는 장기 꼬리 데이터를 다루는 다중 모달리티 모델 학습에 있어 적응형 온도/마진 스케줄링이 필수적임을 입증하고, 향후 관련 연구의 새로운 기준을 제시합니다.