TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ TRACE: 검색의 '명탐정'이 된 AI

과거의 검색 AI 는 **'빠른 계산기'**였습니다.

상황: "빨간색 고양이"라고 검색하면, AI 는 빨간색과 고양이 그림자가 있는 사진을 바로 찾아냅니다.
한계: 하지만 "이 사진의 고양이는 화났는데, 배경은 바다로 바꿔줘"라고 하면, 계산기는 당황합니다. "빨간색"과 "고양이"는 찾지만, '화남'과 '바다'라는 복잡한 관계를 이해하지 못해 엉뚱한 사진을 보여줍니다.

TRACE 는 이 문제를 해결하기 위해 '명탐정'이 되었습니다.

1. 상황 판단: "이건 간단한 질문인가, 복잡한 사건인가?"

TRACE 는 검색을 시작하기 전에 먼저 질문을 분석합니다.

간단한 질문 (예: "고양이 사진"): 명탐정은 "아, 이건 그냥 사진 찾아주는 거군!" 하고 직관적으로 바로 답을 찾습니다. (빠르고 효율적)
복잡한 질문 (예: "이 사진의 고양이를 화나게 하고 배경을 바다로"): 명탐정은 "오, 이건 좀 복잡한 사건이네. 차근차근 생각해보자"라고 말합니다.

2. 추리 과정 (Chain-of-Thought): "생각의 흔적 남기기"

복잡한 질문을 받으면, TRACE 는 바로 답을 주지 않고 추리 노트를 작성합니다.

생각의 흐름: "일단 원본 사진은 고양이가 평화롭게 앉아 있네. 사용자는 고양이를 '화나게' 만들고 싶어. 그리고 배경을 '바다'로 바꾸라고 했어. 그래서 최종 이미지는 '화난 고양이'가 '바다' 배경에 있어야 해."
이 **생각의 과정 (추리 노트)**을 AI 가 스스로 만들어내는 것이 핵심입니다.

3. 압축과 검색: "생각을 요약해서 찾아내기"

이제 TRACE 는 이 긴 추리 노트를 **하나의 핵심 키워드 (압축된 정보)**로 요약합니다.

"화난 고양이 + 바다 배경"이라는 핵심 개념을 만들어서, 데이터베이스에서 이 개념과 가장 잘 맞는 사진을 찾아냅니다.
이 덕분에 AI 는 단순히 그림을 보는 게 아니라, 사용자의 의도를 논리적으로 이해하고 검색할 수 있게 됩니다.

🌟 TRACE 가 특별한 이유 (세 가지 특징)

1. 상황에 따라 변신하는 '스마트한 검색'

대부분의 AI 는 복잡한 질문을 받으면 무조건 머리를 싸매고 생각하느라 느려집니다. 하지만 TRACE 는 질문의 난이도를 스스로 파악합니다.

간단한 건 스피드로 처리하고, 복잡한 건 깊이 있는 생각을 합니다.
비유: 식당에서 "물 한 잔 주세요"라고 하면 바로 주지만, "오늘 날씨에 맞는 특별한 메뉴 추천해줘"라고 하면 셰프가 고민해서 메뉴를 추천하는 것과 같습니다.

2. 새로운 곳에서도 통하는 '학습된 직관'

이 시스템은 훈련받지 않은 새로운 분야 (예: 낯선 예술 작품이나 전문적인 의학 이미지) 에도 잘 작동합니다.

비유: TRACE 는 특정 맛집의 메뉴만 외우는 게 아니라, '맛있는 음식을 고르는 원리' 자체를 배웠기 때문에, 처음 가는 식당에서도 맛있는 음식을 찾아낼 수 있습니다.

3. 질문에는 생각하지만, 답에는 생각하지 않음 (중요한 발견!)

논문의 가장 흥미로운 발견 중 하나입니다.

질문 (검색어) 에는 추리를 시키면 정확도가 엄청나게 좋아집니다.
하지만 답 (찾을 이미지) 에도 추리를 시키면 오히려 엉망이 됩니다.
비유: 수사관이 범인을 잡기 위해는 열심히 추리해야 하지만, 범인 (이미지) 자체는 변함없는 사실 (고정된 증거) 이어야 합니다. 범인이 "내가 왜 범인인지 설명해줘"라고 말을 시작하면 오히려 혼란이 생기는 것과 같습니다. TRACE 는 이 차이를 정확히 알고 있습니다.

📝 결론: 왜 이것이 중요한가요?

이전까지의 검색은 **"키워드 일치"**에 의존했다면, TRACE 는 **"의도 이해"**에 기반합니다.

기존: "고양이" + "빨강" = 빨간 고양이 사진 (하지만 고양이가 웃고 있을 수도 있음)
TRACE: "고양이" + "빨강" + "화남" + "바다" = 정확히 원하는 상황의 고양이

이 기술은 시각 장애인에게 이미지를 설명해주거나, 복잡한 조건으로 물건을 찾아주는 등 사람의 복잡한 생각을 이해하는 검색 시스템을 만드는 데 큰 도움이 될 것입니다.

한 줄 요약:

TRACE 는 검색할 때 "무조건 빠르게"가 아니라, "간단하면 빨리, 복잡하면 깊이 생각해서" 정답을 찾아주는 똑똑한 AI 명탐정입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

범용 멀티모달 검색 (Universal Multimodal Retrieval) 은 텍스트, 이미지, 그리고 이들이 혼합된 복잡한 쿼리를 통해 다양한 후보군에서 관련 정보를 찾는 것을 목표로 합니다. 최근 멀티모달 대규모 언어 모델 (MLLM) 은 강력한 추론 능력을 보유하고 있으나, 기존 검색 시스템에 적용될 때는 주로 정적 인코더 (Static Encoder) 로만 사용되었습니다.

기존 접근법의 한계: MLLM 을 단순히 입력을 고정된 차원의 임베딩으로 변환하는 '단순 인코더'로만 사용하면, 복잡한 사용자 의도 (예: "이 이미지의 판다를 빼고 슬픈 표정의 다른 동물을 찾아줘"와 같은 조합적 지시) 를 처리하는 데 한계가 있습니다. 이러한 쿼리는 단순한 패턴 매칭이 아닌 논리적 추론 (Logical Deduction) 이 필요하지만, 기존 방식은 이를 암시적으로 한 번의 포워드 패스로 처리하려다 인지적 병목 현상 (Cognitive Bottleneck) 을 겪습니다.
핵심 문제: 복잡한 쿼리에 대한 논리적 추론 과정을 명시적으로 거치지 않고 직접 임베딩을 생성하는 방식은 검색 정확도를 저하시키며, MLLM 의 생성적 추론 능력을 충분히 활용하지 못합니다.

2. 방법론 (Methodology)

저자들은 TRACE (Task-adaptive Reasoning And Compressing Embeddings) 라는 새로운 프레임워크를 제안합니다. 이는 생성적 추론과 판별적 표현 학습을 통합하며, 쿼리의 복잡도에 따라 추론 단계를 동적으로 조절합니다.

A. TRACE 아키텍처 및 적응형 메커니즘

생성적 추론 후 인코딩 (Reasoning then Encoding):
- 복잡한 쿼리: 모델은 먼저 구조화된 Chain-of-Thought (CoT) 를 생성하여 쿼리의 의도를 명시적으로 추론합니다. 이후 이 추론 과정을 <|emb|> 라는 특수 토큰을 통해 압축된 임베딩으로 변환합니다.
- 단순 쿼리: 모델은 추론 단계를 생략하고 바로 <|emb|> 토큰을 생성하여 특징을 추출합니다.
적응형 라우팅 (Adaptive Routing):
- 명시적인 게이트 네트워크 없이, 모델이 학습된 데이터 분포를 기반으로 암시적으로 (Implicitly) 쿼리 난이도를 판단합니다.
- 단순한 키워드 검색 시에는 높은 확률로 <|emb|> 토큰을 바로 출력하여 추론 오버헤드를 줄이고, 복잡한 조합적 지시가 들어오면 텍스트 토큰 (CoT) 을 먼저 생성하여 추론을 수행합니다.
임베딩 추출:
- <|emb|> 토큰을 예측하는 직전 시점의 히든 상태 (Hidden State) 를 최종 검색 임베딩으로 사용합니다. 이는 전체 문맥 (원본 쿼리 + 생성된 CoT) 을 압축한 최적의 의미적 병목 지점 (Semantic Bottleneck) 으로 작용합니다.

B. 학습 전략 (Unified Single-Stage Training)

하이브리드 목적 함수:
- 생성 손실 (Generative Loss): CoT 토큰 생성을 위한 교차 엔트로피 손실 ( $L_{gen}$ ) 을 사용하여 모델이 논리적 추론 과정을 내부화하도록 학습시킵니다.
- 판별적 대비 손실 (Discriminative Contrastive Loss): 최종 <|emb|> 임베딩에 대한 InfoNCE 손실 ( $L_{ret}$ ) 을 사용하여 검색 정확도를 최적화합니다.
- 두 손실을 가중 합하여 단일 단계 (Single-stage) 로 동시 학습합니다.

C. 데이터 구축: M-BEIR-CoT

기존 검색 데이터셋에는 고품질의 추론 과정 (CoT) 이 부족하여, M-BEIR-CoT 라는 대규모 데이터셋을 구축했습니다.
구성: M-BEIR 벤치마크를 기반으로 하며, MLLM 을 활용해 쿼리 난이도를 평가하고 복잡한 쿼리에는 CoT 를 생성, 단순 쿼리에는 직접 인코딩 경로를 할당하는 난이도 인식 라우팅 전략을 적용했습니다.
필터링: 생성된 CoT 가 환각 (Hallucination) 이 아닌지 확인하기 위해 규칙 기반 및 모델 기반의 이중 필터링을 거쳐 57 만 개 이상의 고품질 추론 샘플을 확보했습니다.

3. 주요 기여 (Key Contributions)

TRACE 프레임워크 제안: 판별적 임베딩 생성 과정에 작업 적응형 추론 (Task-adaptive Reasoning) 을 명시적으로 통합하여, 정확도와 추론 효율성 사이의 균형을 달성했습니다.
M-BEIR-CoT 데이터셋 공개: 검색 태스크에 적응형 추론 능력을 학습시키기 위해 설계된 대규모 고품질 데이터셋을 구축하여 데이터 부족 문제를 해결했습니다.
새로운 SOTA 달성 및 통찰:
- M-BEIR 벤치마크 및 다양한 제로샷 (Zero-shot) 시나리오에서 새로운 최첨단 (SOTA) 성능을 달성했습니다.
- 비대칭 추론 전략 발견: 쿼리 측 (Query Side) 에서는 추론이 성능을 크게 향상시키지만, 후보 측 (Candidate Side) 에 추론을 적용하면 성능이 치명적으로 저하됨을 발견했습니다. 이는 후보 이미지가 고정된 시각적 앵커 역할을 해야 하는데, 생성된 텍스트 패턴에 과적합되기 때문입니다.

4. 실험 결과 (Results)

M-BEIR 벤치마크:
- 기존 최강 베이스라인인 LamRA-Ret 대비 평균 Recall@5 에서 2.2%p 향상.
- 특히 논리적 추론이 필요한 CIRR, FashionIQ, InfoSeek 등의 데이터셋에서 3~4%p 이상의 큰 폭의 성능 개선을 보였습니다.
- 단순한 Qwen2.5-VL 모델의 평균 점수를 23.0% 에서 58.8% 로 대폭 상승시켰습니다.
효율성 vs 정확도 트레이드오프:
- 단순 쿼리 (MSCOCO) 에서는 추론을 생략하여 QPS(초당 쿼리 수) 를 약 2 배 높이고 정확도도 89.10% 로 향상시켰습니다.
- 복잡한 쿼리 (CIRR) 에서는 추론을 활성화하여 정확도를 57.03% 로 높였습니다.
제로샷 일반화:
- 학습 데이터에 포함되지 않은 13 개의 unseen 데이터셋 (ShareGPT4V, Urban-1K, CIRCO 등) 에서도 뛰어난 성능을 보여주며, 모델이 특정 데이터 분포를 외우는 것이 아니라 추론 능력 자체를 학습했음을 입증했습니다.
추론 위치 분석:
- <|emb|> 토큰 직전의 히든 상태를 추출하는 것이 가장 성능이 좋았으며, 후보 측에 CoT 를 적용하면 성능이 57% 에서 18% 로 급락하는 현상을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 범용 멀티모달 검색의 패러다임을 "직접 인코딩"에서 "추론 후 인코딩 (Reasoning then Encoding)" 으로 전환시켰다는 점에서 의의가 큽니다.

인지적 능력의 통합: MLLM 의 강력한 생성적 추론 능력을 검색 임베딩 학습에 성공적으로 통합하여, 복잡한 사용자 의도를 해독하고 정밀한 검색을 가능하게 했습니다.
효율성과 성능의 균형: 모든 쿼리에 무조건적인 추론을 적용하는 것이 아니라, 쿼리의 난이도에 따라 동적으로 추론을 활성화하거나 생략함으로써, 높은 정확도를 유지하면서도 추론 오버헤드를 최소화하는 실용적인 솔루션을 제시했습니다.
미래 지향성: 이 프레임워크는 해석 가능하고 인지적으로 진보된 검색 시스템 구축의 토대가 되며, 시각 장애인 지원 도구 등 다양한 접근성 기술 발전에 기여할 것으로 기대됩니다.

요약하자면, TRACE 는 MLLM 의 추론 능력을 검색 임베딩 학습에 효과적으로 주입하고, 이를 쿼리 복잡도에 따라 적응형으로 제어함으로써 범용 멀티모달 검색의 새로운 기준을 제시한 연구입니다.