TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

이 논문은 Mixture-of-Experts(MoE) 와 Low-Rank Adaptation(LoRA) 을 결합하고 전문가 인식 부정 샘플링 (EANS) 전략을 도입하여 작업 간 충돌을 해소하고 범용 멀티모달 임베딩의 태스크 스케일링을 가능하게 하는 TSEmbed 프레임워크를 제안하며, 이를 통해 MMEB 벤치마크 및 실제 산업 데이터에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yebo Wu, Feng Liu, Ziwei Xie, Zhiyuan Liu, Changwang Zhang, Jun Wang, Li Li

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "만능 요리사 vs. 전문 요리팀"

지금까지의 AI 모델들은 **'만능 요리사'**처럼 행동했습니다. 한 명의 요리사가 모든 요리를 (한국 음식, 프랑스 음식, 디저트 등) 한 번에 만들어내려다 보니, 각 요리의 특색을 살리지 못하고 서로 섞여서 맛이 이상해지는 문제가 있었습니다. 이를 논문에서는 **'작업 충돌 (Task Conflict)'**이라고 부릅니다.

예를 들어, "사진 속 개를 찾아내는 일 (검색)"과 "사진 속 개가 무슨 감정을 표현하는지 설명하는 일 (질문 답변)"을 같은 요리사가 동시에 하려다 보니, 두 가지 일의 방식이 서로 달라서 실수가 잦아진 것입니다.

TSEmbed는 이 문제를 해결하기 위해 **"전문가 팀 (MoE)"**을 꾸리는 방식을 제안합니다.

1. 핵심 아이디어: "상황에 맞는 전문가 팀" (MoE + LoRA)

TSEmbed 는 한 명의 만능 요리사 대신, 상황을 보고 적절한 전문가를 불러모으는 시스템을 만듭니다.

  • 기존 방식: 모든 일을 한 사람이 다 합니다. (모든 일을 하려다 보니 실수가 많음)
  • TSEmbed 방식:
    • "검색"이 필요하면 검색 전문가가 나옵니다.
    • "질문 답변"이 필요하면 이해 전문가가 나옵니다.
    • 이 전문가들은 서로 간섭하지 않고 각자 맡은 일만 완벽하게 처리합니다.

이를 기술적으로는 **MoE (Mixture-of-Experts, 전문가 혼합)**와 **LoRA (저랭크 적응)**라는 기술을 섞어서 구현했습니다. 마치 대형 식당에서 메뉴가 들어오면, 해당 메뉴를 가장 잘 만드는 셰프에게만 일을 맡기는 것과 같습니다.

2. 새로운 전략: "유사한 오답 찾기" (EANS)

AI 를 가르칠 때는 정답뿐만 아니라, **정답과 매우 비슷하지만 틀린 것 (하드 네거티브)**을 구별하는 연습이 중요합니다. 예를 들어, "강아지"를 찾으라고 할 때, "고양이"는 틀리지만 "강아지"와 매우 비슷해서 구별하기 어렵습니다.

기존 방식은 모든 오답을 똑같이 취급했지만, TSEmbed 는 어떤 전문가가 이 문제를 해결했는지를 보고 오답의 중요도를 판단합니다.

  • 비유: "검색 전문가"가 "강아지"와 "고양이"를 구분할 때 혼란을 느꼈다면, 이 두 가지는 매우 비슷하다는 뜻입니다. AI 는 이 두 가지를 더 열심히 비교해서 구별하도록 훈련받습니다.
  • 이 방법을 **EANS(전문가 인지형 오답 샘플링)**라고 부릅니다. AI 가 스스로 "어떤 전문가가 이 일을 처리했는지"를 분석해서, 가장 헷갈리는 문제들을 골라내어 집중 훈련시키는 것입니다.

3. 훈련 과정: "단계별 성장" (Two-Stage Learning)

이 시스템을 바로 작동시키면 혼란이 생길 수 있습니다. 전문가들이 아직 제자리가 정해지지 않았는데 오답을 골라내려 하면 엉망이 되기 때문입니다.

그래서 TSEmbed 는 두 단계로 훈련합니다.

  1. 1 단계 (전문가 준비): 먼저 각 전문가가 어떤 일을 잘하는지 자연스럽게 익히도록 합니다. (전문가들이 각자의 자리로 이동하는 시간)
  2. 2 단계 (정밀 훈련): 전문가들이 제자리를 잡은 후, 위에서 설명한 '유사한 오답 찾기' 훈련을 시켜서 실력을 극대화합니다.

🏆 결과: 왜 이것이 중요한가요?

이 방법을 쓰자 AI 는 놀라운 성과를 냈습니다.

  • 더 똑똑해짐: 여러 가지 일을 동시에 해도, 각 일의 성능이 떨어지지 않고 오히려 전문 모델 못지않게 잘합니다.
  • 더 효율적임: 모델을 크게 키우지 않아도 (파라미터를 거의 늘리지 않고) 성능이 크게 향상됩니다.
  • 실제 적용: 학술적인 테스트뿐만 아니라, 실제 광고 추천이나 게임 같은 현실 세계에서도 성능이 크게 좋아졌습니다. (광고 분야에서 약 22% 나 성능이 향상됨)

📝 한 줄 요약

"TSEmbed 는 AI 가 여러 일을 동시에 할 때 서로 방해받지 않도록 '상황별 전문가 팀'을 꾸리고, 헷갈리는 문제들을 집중적으로 훈련시켜서 만능 AI 의 실력을 극대화한 기술입니다."

이 기술은 앞으로 우리가 사용하는 AI 가 더 똑똑하고, 빠르고, 다양한 일을 척척 해낼 수 있는 토대를 마련해 줍니다.