CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'CREM'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델의 핵심 아이디어를 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드릴게요.

🎒 배낭 여행의 비유: "무거운 짐" vs "가벼운 요약본"

지금까지의 Multimodal Large Language Models(멀티모달 거대 언어 모델, MLLM) 은 두 가지 큰 고민이 있었습니다.

검색 (Retrieval) 을 잘 하려면: 방대한 사진과 텍스트 정보를 모두 기억해서 검색해야 합니다. 마치 여행 가방에 옷, 신발, 책, 식기까지 모든 것을 다 챙겨서 가는 것과 같습니다. 검색엔진처럼 빠르게 찾아내려면 이 '가방 전체'를 비교해야 하죠.
생성 (Generation) 을 잘 하려면: 그림을 보고 "이건 뭐야?"라고 질문하면, 가방 속 모든 물건을 하나하나 살펴봐야 정확한 답을 줄 수 있습니다.

기존의 문제점:

검색 전용 모델: 검색은 빠르지만, 가방을 열어 설명하는 (생성) 능력은 떨어집니다. (가방을 닫아두고 번호만 외운 상태)
생성 전용 모델: 설명은 잘하지만, 검색할 때 가방을 다 열어봐야 해서 느립니다.
기존 시도: 두 가지 능력을 한 번에 하려고 하면, 서로 간섭해서 둘 다 평범해지거나 한쪽이 망가졌습니다.

✨ CREM 의 해결책: "요약 노트" (Chorus Tokens)

이 논문은 **"왜 가방 전체를 들고 다니면서 검색하고 설명해야 할까?"**라고 질문합니다. 대신 **가방 속 물건들의 핵심만 담은 '요약 노트'**를 만들어서 두 가지 일을 모두 해결하자는 것입니다.

1. '합창단 토큰 (Chorus Tokens)'이라는 요약본

CREM 은 이미지와 텍스트를 보고, 그 방대한 정보에서 **핵심만 추려낸 16 개의 '요약 토큰'**을 만듭니다.

비유: 1,000 장의 사진과 긴 설명문이 있다면, CREM 은 이를 16 줄의 핵심 요약문으로 압축합니다.
이 요약본은 검색할 때는 이 16 줄만 비교하면 되므로 매우 빠르고 정확합니다.
동시에 이 요약본을 바탕으로 질문을 받으면, 생성 능력도 유지됩니다.

2. '압축 훈련 (Compression-Driven Training)'

이 모델은 두 가지 일을 동시에 배웁니다.

검색 훈련: "이 요약본 (16 줄) 을 보고, 어떤 질문과 가장 잘 맞는지 찾아라."
생성 훈련: "이 요약본 (16 줄) 을 보고, 질문에 대한 답을 써라."
핵심: 이 요약본을 만들 때, 모델은 "이 정보가 검색에 중요할까? 아니면 설명에 중요할까?"를 고민하며 양쪽 모두에 좋은 정보만 남기도록 훈련됩니다.

🚀 CREM 의 놀라운 성과

이 모델을 실험해 보니 다음과 같은 결과가 나왔습니다.

검색 능력 최강: 검색 전용으로만 훈련된 모델들보다 더 잘 찾습니다. (가방 전체를 다 뒤지는 것보다, 핵심 요약본을 비교하는 것이 더 효율적이었기 때문입니다.)
생성 능력 유지: 검색 능력을 키우기 위해 설명 능력을 버린 다른 모델들과 달리, CREM 은 원래의 설명 능력 (생성 능력) 을 거의 잃지 않았습니다.
압축의 힘: 흥미롭게도, 모델이 원래의 1,000 장 이미지 대신 16 개의 요약 토큰만 보고도, 원래 모델의 83% 정도의 이해도를 유지했습니다.
- 실제 이점: 이는 컴퓨터의 메모리 (KV Cache) 를 획기적으로 줄여주어, 긴 문서를 처리할 때 속도를 높이고 비용을 아낄 수 있음을 의미합니다.

📝 한 줄 요약

CREM은 "방대한 정보를 **핵심 요약본 (Chorus Tokens)**으로 압축하는 기술"을 통해, **검색 (찾기)**과 **생성 (설명하기)**이라는 두 마리 토끼를 동시에 잡은 모델입니다.

기존에는 "검색을 잘하려면 설명을 못 하고, 설명을 잘하려면 검색이 느렸다"는 딜레마가 있었는데, CREM 은 **"핵심만 잘 추려낸 요약본"**을 통해 이 문제를 완벽하게 해결했습니다. 마치 복잡한 도서관의 모든 책을 다 읽지 않고도, 정확한 요약 노트만으로도 어떤 책이 어디 있는지 빠르게 찾고, 그 책의 내용도 잘 설명할 수 있는 똑똑한 사서 같은 존재입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

멀티모달 대규모 언어 모델 (MLLM) 은 시각적 설명이나 시각적 질문 답변 (VQA) 과 같은 이해 (Comprehension) 및 생성 (Generation) 작업에서 뛰어난 성과를 보여왔습니다. 그러나 이러한 모델을 검색 (Retrieval) 과 같은 임베딩 기반 작업에 직접 적용하는 것은 다음과 같은 근본적인 어려움으로 인해 제한적입니다.

출력 형식 및 최적화 목표의 불일치: 생성 모델은 다음 토큰 예측을 기반으로 하는 반면, 검색 모델은 입력을 고정된 임베딩 벡터로 압축해야 합니다.
생성과 임베딩 간의 트레이드오프: 기존 연구들은 MLLM 을 검색에 적응시키기 위해 대비 학습 (Contrastive Fine-tuning) 을 수행했습니다. 그러나 이 과정에서 모델의 생성 능력이 심각하게 저하되거나 상실되는 문제가 발생했습니다 (그림 1 참조).
기존 접근법의 한계: CAFe 와 같은 기존 방법들은 생성과 임베딩을 단순히 손실 함수 (Loss) 만 결합하는 수준으로 접근하여, 두 작업 간의 내재적인 연결성을 충분히 활용하지 못해 최적의 성능을 내지 못했습니다.

핵심 질문: MLLM 이 생성 능력을 희생하지 않으면서도 표현 (Representation) 능력을 향상시킬 수 있는가?

2. 방법론 (Methodology)

저자들은 CREM (Compression-driven Representation Enhanced Model) 을 제안했습니다. 이는 생성과 검색을 단일 프레임워크 내에서 통합하며, 압축 (Compression) 을 핵심 메커니즘으로 활용합니다.

2.1. 압축 기반 프롬프트 설계 (Compression-Based Prompt Design)

Chorus Tokens (합창 토큰): 학습 가능한 특수 토큰 집합을 도입하여, 원본의 시각 및 텍스트 토큰을 압축된 의미적 표현으로 변환합니다. 이 토큰들은 임베딩과 생성 작업 모두를 위한 공통된 표현 공간 (Bridge) 역할을 합니다.
통합 프롬프트 구조:
- User: <image> [eInst] <chorus> [gInst]
- Assistant: <answer>
- 여기서 <chorus> 는 이전의 시각/텍스트 토큰을 압축한 표현이며, 생성 단계에서는 이 압축된 표현을 기반으로 답변을 생성합니다.
압축 인지 어텐션 마스크 (Compression-Aware Attention Mask):
- Chorus 토큰은 모든 입력 (시각/텍스트) 을 볼 수 있습니다.
- 질문 (Q) 과 답변 (A) 토큰은 Chorus 토큰만 볼 수 있고, 원본 시각/텍스트 토큰은 볼 수 없도록 마스크를 적용합니다.
- 이는 모델이 압축된 표현을 통해 정보를 처리하도록 강제하여 효율적인 정보 흐름을 보장합니다.

2.2. 압축 주도 학습 전략 (Compression-Driven Training Strategy)

단일 프레임워크 내에서 대비 학습 (검색) 과 언어 모델링 (생성) 을 동시에 최적화합니다.

목표 함수: $L = \alpha_r L_r + \alpha_g L_g$ $L = α_{r} L_{r} + α_{g} L_{g}$
- 검색 손실 ( $L_r$ ): Chorus 토큰을 평균 풀링하여 얻은 임베딩에 대해 대비 학습 (InfoNCE Loss) 을 수행합니다.
- 생성 손실 ( $L_g$ ): 확률적 압축 (Stochastic Compression) 전략을 사용합니다.
  - 확률 $p$ 로 모델이 전체 멀티모달 컨텍스트를 사용하는지, 아니면 압축된 Chorus 토큰만 사용하는지를 무작위로 결정합니다.
  - 이는 모델이 압축된 표현에서도 유창한 생성 능력을 유지하도록 강제합니다.
데이터 믹싱 전략:
1. 동질적 데이터 (Homogeneous): 검색 쌍 데이터를 기반으로 MLLM 이 생성한 QA 데이터를 사용하여, 동일한 샘플에서 검색과 생성 손실을 동시에 계산합니다.
2. 이질적 데이터 (Heterogeneous): 오픈 소스 QA 데이터 등을 활용하여 모델의 일반화 능력을 강화합니다.

2.3. 추론 모드 (Inference Modes)

검색 (Retrieval): 최종 레이어의 Chorus 토큰을 풀링하여 임베딩을 생성합니다.
생성 (Generation):
- 네이티브 모드: 모든 시각 토큰을 사용합니다.
- 압축 모드 (Comp.): Chorus 토큰만 KV 캐시에 저장하고 디코딩에 사용합니다. 이는 KV 캐시 크기를 획기적으로 줄이고 긴 컨텍스트 처리를 가능하게 합니다.

3. 주요 기여 (Key Contributions)

학습 가능한 Chorus 토큰 도입: 생성과 임베딩 간의 간극을 메우는 압축 기반 프롬프트 설계를 통해, 고품질의 검색 임베딩과 생성 토큰을 위한 일관된 표현 공간을 구축했습니다.
통합 학습 프레임워크: 대비 학습과 언어 모델링을 압축 인지 어텐션 메커니즘과 확률적 압축 전략을 통해 단일 프레임워크에서 동시 최적화하는 새로운 학습 전략을 제안했습니다.
성능과 효율성의 동시 달성: 검색 성능을 극대화하면서도 생성 능력을 유지하고, 추론 시 KV 캐시 크기를 줄여 효율성을 높였습니다.

4. 실험 결과 (Results)

검색 성능 (MMEB 벤치마크):
- CREM 은 검색 전용으로 훈련된 모델들 (VLM2Vec, UniME, mmE5 등) 보다 SOTA(State-of-the-Art) 성능을 기록했습니다.
- 특히 7B 파라미터 모델 기준, 전체 평균 점수에서 기존 최상위 모델들을 능가했습니다.
생성 능력 유지 (Comprehension Benchmarks):
- MMB, MMMU, MMVet 등 다양한 이해 벤치마크에서 원본 MLLM 과 유사한 성능을 유지했습니다.
- 반면, 생성 데이터 없이 검색 데이터만 학습한 모델 (CREMR) 은 생성 성능이 급격히 저하되었습니다. 이는 생성 감독 (Generative Supervision) 이 임베딩 품질 향상에 필수적임을 보여줍니다.
압축 효율성:
- 토큰 수를 80 배 이상 축소 (예: 1280 개 $\to$ 16 개 Chorus 토큰) 했음에도 불구하고, 모델은 응답 품질의 83% 를 유지했습니다.
- 이는 압축된 토큰이 검색과 이해에 필요한 충분한 정보를 보유하고 있음을 의미하며, 추론 시 메모리 효율성을 크게 높입니다.

5. 의의 및 결론 (Significance)

이 논문은 생성 (Generation) 과 임베딩 (Embedding) 이 상호 배타적인 것이 아니라, 공통된 인지 메커니즘 (교차 모달 정렬, 문맥 이해) 에 기반하고 있음을 증명했습니다.

패러다임 전환: 단순히 두 작업을 병렬로 학습하는 것을 넘어, '압축'이라는 공통된 목표를 통해 두 작업을 유기적으로 결합했습니다.
실용적 가치: 생성 능력을 유지하면서 검색 성능을 극대화함으로써, 단일 모델로 다양한 멀티모달 애플리케이션 (검색 추천, 대화형 AI 등) 을 지원할 수 있는 확장 가능한 경로를 제시했습니다.
미래 전망: 압축된 표현을 통해 KV 캐시 크기를 줄이는 기술은 긴 컨텍스트 처리가 필요한 차세대 멀티모달 모델 개발에 중요한 통찰을 제공합니다.

요약하자면, CREM은 생성 능력을 희생하지 않으면서도 검색 성능을 극대화하는 최초의 통합 멀티모달 모델 중 하나로, 압축 기반의 표현 학습이 MLLM 의 다목적 활용성을 높이는 핵심 열쇠임을 입증했습니다.