MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

이 논문은 불균형한 장꼬리 분포를 가진 멀티모달 데이터의 대비 학습 성능을 향상시키기 위해, 샘플의 지역 분포에 기반하여 온도와 마진을 동적으로 조정하는 'MM-TS' 방법을 제안하고 여러 데이터셋에서 새로운 최첨단 결과를 달성했음을 보여줍니다.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"MM-TS"**라는 새로운 인공지능 학습 방법을 소개합니다. 이 방법을 쉽게 이해할 수 있도록 **'학교 반 친구들'**과 **'선생님의 시험 점수 조절'**에 비유해서 설명해 드릴게요.

🎓 배경: 인공지능이 배우는 방식 (대조 학습)

인공지능 (AI) 은 사진을 보고 그 사진에 맞는 설명 (텍스트) 을 찾거나, 반대로 설명을 보고 사진을 찾는 일을 배웁니다. 이를 위해 AI 는 '비슷한 것끼리는 끌어당기고, 다른 것끼리는 밀어내는' 힘을 조절하며 학습합니다.

  • 비유: 선생님이 학생들을 교실 한가운데 모아두고, "너희는 친구니까 서로 가까이 서라 (끌어당김)"고 하고, "너희는 남이니까 서로 멀리 떨어져 있어라 (밀어냄)"고 하는 상황입니다.

📉 문제: '긴 꼬리' 데이터의 불공평함

하지만 현실의 데이터는 공평하지 않습니다.

  • 헤드 (Head): '개', '고양이', '자동차'처럼 아주 흔한 주제들은 데이터가 수만 개나 있습니다.
  • 테일 (Tail): '라쿤이 피자를 먹는 모습'이나 '특수한 요리법'처럼 드문 주제는 데이터가 몇 개뿐입니다.

기존 AI 는 흔한 주제 (헤드) 에만 집중해서 배우고, 드문 주제 (테일) 는 무시해버리는 경향이 있었습니다. 마치 수업 시간에 인기 많은 학생들만 불러서 질문하고, 조용한 학생들은 무시하는 것과 같습니다.

💡 해결책: MM-TS (온도와 마진 스케줄)

이 논문은 **"학습할 때 온도와 밀어내는 힘을 상황에 따라 똑똑하게 조절하자"**고 제안합니다. 이를 MM-TS라고 부릅니다.

1. 온도를 조절하자 (Temperature Schedule)

AI 가 학습할 때 사용하는 '온도'라는 숫자가 있습니다. 이 온도는 학생들을 얼마나 세밀하게 구분할지를 결정합니다.

  • 낮은 온도 (차가운 날): 학생들을 아주 세밀하게 구분합니다. "너와 너는 비슷해 보이지만, 사실은 다른 사람이다!"라고 아주 작은 차이도 찾아냅니다.
    • 용도: 드문 주제 (테일) 에게 적합합니다. 드문 주제는 흔한 주제들과 섞이지 않게 개별적으로 확실히 구분해줘야 하기 때문입니다.
  • 높은 온도 (따뜻한 날): 학생들을 큰 그룹으로 묶어줍니다. "너와 너는 같은 '축구 선수' 그룹이야!"라고 큰 범주로 묶습니다.
    • 용도: 흔한 주제 (헤드) 에게 적합합니다. 흔한 주제는 너무 세세하게 구분하면 오히려 혼란스러우니, 큰 의미의 그룹을 형성하는 것이 좋습니다.

MM-TS 의 아이디어:
학습 초반에는 온도를 높여 큰 그룹을 만들고, 나중에는 온도를 낮춰 세부적인 차이를 배우게 합니다. 마치 아이들을 먼저 '축구부', '음악부'로 큰 그룹을 나누고, 나중에 '김철수', '이영희'로 이름을 하나하나 외우게 하는 과정과 같습니다.

2. 드문 학생을 특별 대우하자 (Individual Adjustment)

그런데 모든 학생에게 같은 온도를 적용하면 안 됩니다.

  • 흔한 주제 (헤드): 이미 데이터가 많으니, 큰 그룹을 형성하게 온도를 높게 설정합니다.
  • 드문 주제 (테일): 데이터가 적어 다른 흔한 주제들과 섞일 위험이 있으니, 온도를 낮게 설정하여 확실하게 밀어냅니다.

핵심 기술:
이 논문은 **텍스트 (설명)**를 보고 데이터가 얼마나 흔한지 미리 파악합니다.

  • "이 사진의 설명에 '개'라는 단어가 자주 나오네? → 흔한 주제야. 온도를 높여 그룹으로 묶어줘."
  • "이 설명은 '보라색 코끼리가 우주선을 탄다'는 드문 내용이네? → 드문 주제야. 온도를 낮춰서 확실하게 구분해줘."

이렇게 각 학생 (데이터) 마다 온도를 다르게 조절해서, 드문 주제도 공평하게 잘 배우게 합니다.

🏆 결과: 왜 이 방법이 좋은가요?

이 방법을 적용한 AI 는 다음과 같은 성과를 냈습니다.

  1. 드문 주제도 잘 알아봄: 평소엔 잘 못 찾던 '특이한 요리'나 '드문 행동'도 정확하게 찾아냈습니다.
  2. 흔한 주제도 더 잘 구분됨: 흔한 주제들도 큰 그룹 안에서 더 잘 정리되었습니다.
  3. 새로운 기록 (State-of-the-art): Flickr30K, COCO, EPIC-KITCHENS 등 여러 유명한 데이터셋에서 기존 최고의 AI 보다 더 좋은 점수를 받았습니다.

📝 한 줄 요약

"AI 가 배울 때, 흔한 것은 '큰 그룹'으로, 드문 것은 '개별 학생'으로 구분해서 온도를 조절해 주는 똑똑한 선생님 (MM-TS) 을 도입하자!"

이 방법은 인공지능이 불공평한 데이터 세상에서도 모든 것을 공정하고 정확하게 이해할 수 있도록 도와주는 혁신적인 기술입니다.