TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "만능 요리사 vs. 전문 요리팀"

지금까지의 AI 모델들은 **'만능 요리사'**처럼 행동했습니다. 한 명의 요리사가 모든 요리를 (한국 음식, 프랑스 음식, 디저트 등) 한 번에 만들어내려다 보니, 각 요리의 특색을 살리지 못하고 서로 섞여서 맛이 이상해지는 문제가 있었습니다. 이를 논문에서는 **'작업 충돌 (Task Conflict)'**이라고 부릅니다.

예를 들어, "사진 속 개를 찾아내는 일 (검색)"과 "사진 속 개가 무슨 감정을 표현하는지 설명하는 일 (질문 답변)"을 같은 요리사가 동시에 하려다 보니, 두 가지 일의 방식이 서로 달라서 실수가 잦아진 것입니다.

TSEmbed는 이 문제를 해결하기 위해 **"전문가 팀 (MoE)"**을 꾸리는 방식을 제안합니다.

1. 핵심 아이디어: "상황에 맞는 전문가 팀" (MoE + LoRA)

TSEmbed 는 한 명의 만능 요리사 대신, 상황을 보고 적절한 전문가를 불러모으는 시스템을 만듭니다.

기존 방식: 모든 일을 한 사람이 다 합니다. (모든 일을 하려다 보니 실수가 많음)
TSEmbed 방식:
- "검색"이 필요하면 검색 전문가가 나옵니다.
- "질문 답변"이 필요하면 이해 전문가가 나옵니다.
- 이 전문가들은 서로 간섭하지 않고 각자 맡은 일만 완벽하게 처리합니다.

이를 기술적으로는 **MoE (Mixture-of-Experts, 전문가 혼합)**와 **LoRA (저랭크 적응)**라는 기술을 섞어서 구현했습니다. 마치 대형 식당에서 메뉴가 들어오면, 해당 메뉴를 가장 잘 만드는 셰프에게만 일을 맡기는 것과 같습니다.

2. 새로운 전략: "유사한 오답 찾기" (EANS)

AI 를 가르칠 때는 정답뿐만 아니라, **정답과 매우 비슷하지만 틀린 것 (하드 네거티브)**을 구별하는 연습이 중요합니다. 예를 들어, "강아지"를 찾으라고 할 때, "고양이"는 틀리지만 "강아지"와 매우 비슷해서 구별하기 어렵습니다.

기존 방식은 모든 오답을 똑같이 취급했지만, TSEmbed 는 어떤 전문가가 이 문제를 해결했는지를 보고 오답의 중요도를 판단합니다.

비유: "검색 전문가"가 "강아지"와 "고양이"를 구분할 때 혼란을 느꼈다면, 이 두 가지는 매우 비슷하다는 뜻입니다. AI 는 이 두 가지를 더 열심히 비교해서 구별하도록 훈련받습니다.
이 방법을 **EANS(전문가 인지형 오답 샘플링)**라고 부릅니다. AI 가 스스로 "어떤 전문가가 이 일을 처리했는지"를 분석해서, 가장 헷갈리는 문제들을 골라내어 집중 훈련시키는 것입니다.

3. 훈련 과정: "단계별 성장" (Two-Stage Learning)

이 시스템을 바로 작동시키면 혼란이 생길 수 있습니다. 전문가들이 아직 제자리가 정해지지 않았는데 오답을 골라내려 하면 엉망이 되기 때문입니다.

그래서 TSEmbed 는 두 단계로 훈련합니다.

1 단계 (전문가 준비): 먼저 각 전문가가 어떤 일을 잘하는지 자연스럽게 익히도록 합니다. (전문가들이 각자의 자리로 이동하는 시간)
2 단계 (정밀 훈련): 전문가들이 제자리를 잡은 후, 위에서 설명한 '유사한 오답 찾기' 훈련을 시켜서 실력을 극대화합니다.

🏆 결과: 왜 이것이 중요한가요?

이 방법을 쓰자 AI 는 놀라운 성과를 냈습니다.

더 똑똑해짐: 여러 가지 일을 동시에 해도, 각 일의 성능이 떨어지지 않고 오히려 전문 모델 못지않게 잘합니다.
더 효율적임: 모델을 크게 키우지 않아도 (파라미터를 거의 늘리지 않고) 성능이 크게 향상됩니다.
실제 적용: 학술적인 테스트뿐만 아니라, 실제 광고 추천이나 게임 같은 현실 세계에서도 성능이 크게 좋아졌습니다. (광고 분야에서 약 22% 나 성능이 향상됨)

📝 한 줄 요약

"TSEmbed 는 AI 가 여러 일을 동시에 할 때 서로 방해받지 않도록 '상황별 전문가 팀'을 꾸리고, 헷갈리는 문제들을 집중적으로 훈련시켜서 만능 AI 의 실력을 극대화한 기술입니다."

이 기술은 앞으로 우리가 사용하는 AI 가 더 똑똑하고, 빠르고, 다양한 일을 척척 해낼 수 있는 토대를 마련해 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

다중 모달 대형 언어 모델 (MLLM) 은 뛰어난 추론 능력을 갖추고 있으나, 이를 범용 다중 모달 임베딩 모델로 전환하는 과정에서 **'작업 간 충돌 (Task Conflict)'**이라는 근본적인 병목 현상에 직면합니다.

단일 파라미터 공간의 한계: 기존 방법론 (예: VLM2VEC) 은 다양한 작업 (분류, VQA, 검색, 그라운딩 등) 을 단일 모델의 파라미터 공간에 통합하려 합니다. 그러나 서로 다른 작업들은 상충되는 최적화 목표 (Gradient Interference) 를 가지며, 이로 인해 모델 성능이 저하됩니다.
충돌의 3 가지 차원:
1. 공간적 (Spatial): 각 작업별 최적 파라미터 공간이 서로 완전히 다른 영역에 위치하여, 단일 어댑터가 모든 작업을 동시에 만족시키기 어렵습니다.
2. 시간적 (Temporal): 작업별 수렴 속도가 다릅니다. 일부 작업은 빠르게 수렴하는 반면 다른 작업은 장기적인 최적화가 필요하여, 단일 학습 스케줄로는 조율이 불가능합니다.
3. 생태적 (Ecological): 데이터 양이 많은 작업 (예: 검색) 이 데이터가 적은 작업 (예: 비주얼 그라운딩) 의 학습을 지배하여 (Hijack), 소수 작업의 표현 학습이 억제됩니다.

2. 방법론 (Methodology)

저자들은 TSEmbed를 제안하여 MoE(Mixture-of-Experts) 와 LoRA(Low-Rank Adaptation) 를 결합하고, 새로운 부정적 샘플링 전략을 도입했습니다.

가. MoE-LoRA (충격 해체)

개념: 단일 LoRA 어댑터 대신, 입력 쿼리에 따라 특정 전문가 (Expert) 로 라우팅하는 MoE-LoRA 구조를 도입합니다.
작동 원리: 각 레이어에서 입력 토큰에 따라 가중치 $g_i(x)$ 를 계산하여 $N$ 개의 전문가 중 하나 이상을 활성화합니다. 이를 통해 서로 다른 작업은 별도의 서브공간 (Subspace) 에서 최적화되어, 파라미터 간 간섭을 방지하고 작업별 전문성을 확보합니다.

나. 전문가 인식 부정적 샘플링 (EANS, Expert-Aware Negative Sampling)

핵심 아이디어: 기존 Hard Negative Mining 이 계산 비용이 많이 드는 반면, TSEmbed 는 MoE 라우팅 분포를 의미적 유사성의 프록시 (Proxy) 로 활용합니다.
동작:
1. 각 샘플이 네트워크를 통과할 때의 라우팅 분포 (Routing Distribution) 를 추출하여 '라우팅 시그니처'를 생성합니다.
2. 쿼리와 부정적 샘플 간의 라우팅 시그니처 거리를 계산합니다. 거리가 가까우면 (비슷한 전문가를 활성화함) 의미적으로 유사한 'Hard Negative'로 간주합니다.
3. 지수 감쇠 가중치: Hard Negative 에 높은 가중치를 부여하고, 단순한 부정적 샘플 (Trivial Negatives) 에는 낮은 가중치를 부여하여 임베딩 경계를 정교하게 다듬습니다.

다. 2 단계 학습 패러다임 (Two-Stage Learning Paradigm)

EANS 의 안정성을 보장하기 위해 두 단계로 학습을 진행합니다.

Stage 1 (Expert Warm-up): 표준 InfoNCE 손실 함수만 사용하여 라우터가 안정화되고 전문가들이 자연스럽게 작업을 분할하도록 합니다.
Stage 2 (EANS Refinement): 라우팅 토폴로지가 안정화된 후, EANS 손실 함수를 적용하여 Hard Negative 에 대한 선택적 학습을 수행하고 임베딩 경계를 정제합니다.

3. 주요 기여 (Key Contributions)

작업 충돌의 체계적 분석: 다중 모달 임베딩에서의 작업 충돌을 공간적, 시간적, 생태적 차원에서 분석하고, 단일 어댑터의 한계를 입증했습니다.
TSEmbed 아키텍처 제안: MoE 와 LoRA 를 결합하여 조건부 계산 (Conditional Computation) 을 통해 작업 충돌을 해결하고, 작업 수준 (Task-level) 의 확장을 가능하게 했습니다.
EANS 전략 개발: 외부 모델이나 추가 계산 없이 MoE 라우팅 정보를 활용하여 Hard Negative 를 동적으로 식별하고 가중치를 부여하는 제로-오버헤드 전략을 고안했습니다.
안정적인 학습 프로세스: 라우팅 신호의 신뢰성을 확보하기 위한 2 단계 학습 패러다임을 설계하여, EANS 적용 시 발생할 수 있는 불안정성을 해결했습니다.

4. 실험 결과 (Results)

벤치마크 성능 (MMEB):
- TSEmbed 는 MMEB(Massive Multimodal Embedding Benchmark) 에서 모든 파라미터 규모 (2B, 7B) 에서 SOTA(State-of-the-Art) 성능을 달성했습니다.
- 특히 7B 모델 기준, 이전 최고 성능이었던 B3(72.0%) 보다 2.7%p 높은 **74.7%**의 평균 점수를 기록했습니다.
- VLM2VEC 대비 7B 모델에서 8.9%p의 큰 개선을 보였습니다.
작업별 성능: 단일 모델임에도 불구하고 분류, VQA, 검색, 그라운딩 등 개별 작업별 성능이 작업 전용 모델 (Oracle) 과 거의 유사하거나 이를 능가하는 수준을 보여주었습니다.
실제 산업 데이터: 광고, 테마, 락스크린, 게임 등 실제 산업 환경 데이터셋에서 VLM2VEC 대비 광고 분야에서 21.87%p의 Recall 향상 등 압도적인 성능 개선을 입증했습니다.
효율성:
- 추가 파라미터는 2B 기준 1.7%, 7B 기준 1.0% 만 증가했습니다.
- 학습 시간은 20 시간 내외로 소폭 증가했으나, 성능 대비 효율이 매우 뛰어납니다.

5. 의의 및 결론 (Significance)

이 논문은 범용 다중 모달 임베딩 분야에서 **작업 간 충돌 (Task Conflict)**이라는 근본적인 문제를 해결하는 새로운 패러다임을 제시했습니다.

기술적 의의: 단일 모델이 다양한 작업을 동시에 수행할 때 발생하는 성능 저하를 MoE 기반의 동적 라우팅과 라우팅 정보 기반의 정교한 샘플링 전략으로 해결했습니다.
실용적 가치: 외부 대규모 데이터에 의존하지 않고도 (MMEB 만으로 학습), 산업 현장의 다양한 요구사항을 충족하는 고성능 임베딩 모델을 구축할 수 있음을 증명했습니다.
확장성: TSEmbed 는 임베딩 모델의 '작업 확장 (Task Scaling)'을 가능하게 하는 기반을 마련하여, 향후 더 복잡하고 다양한 다중 모달 태스크를 단일 모델로 처리하는 데 중요한 이정표가 될 것으로 기대됩니다.