CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

이 논문은 생성 능력을 유지하면서 검색 성능을 극대화하기 위해 압축 기반 프롬프트 설계와 학습 전략을 도입한 CREM 모델을 제안하여, 멀티모달 표현의 정렬과 이해를 향상시키는 통합 프레임워크를 제시합니다.

Lihao Liu, Yan Wang, Biao Yang, Da Li, Jiangxia Cao, Yuxiao Luo, Xiang Chen, Xiangyu Wu, Wei Yuan, Fan Yang, Guiguang Ding, Tingting Gao, Guorui Zhou

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'CREM'**이라는 새로운 인공지능 모델을 소개합니다. 이 모델의 핵심 아이디어를 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드릴게요.

🎒 배낭 여행의 비유: "무거운 짐" vs "가벼운 요약본"

지금까지의 Multimodal Large Language Models(멀티모달 거대 언어 모델, MLLM) 은 두 가지 큰 고민이 있었습니다.

  1. 검색 (Retrieval) 을 잘 하려면: 방대한 사진과 텍스트 정보를 모두 기억해서 검색해야 합니다. 마치 여행 가방에 옷, 신발, 책, 식기까지 모든 것을 다 챙겨서 가는 것과 같습니다. 검색엔진처럼 빠르게 찾아내려면 이 '가방 전체'를 비교해야 하죠.
  2. 생성 (Generation) 을 잘 하려면: 그림을 보고 "이건 뭐야?"라고 질문하면, 가방 속 모든 물건을 하나하나 살펴봐야 정확한 답을 줄 수 있습니다.

기존의 문제점:

  • 검색 전용 모델: 검색은 빠르지만, 가방을 열어 설명하는 (생성) 능력은 떨어집니다. (가방을 닫아두고 번호만 외운 상태)
  • 생성 전용 모델: 설명은 잘하지만, 검색할 때 가방을 다 열어봐야 해서 느립니다.
  • 기존 시도: 두 가지 능력을 한 번에 하려고 하면, 서로 간섭해서 둘 다 평범해지거나 한쪽이 망가졌습니다.

✨ CREM 의 해결책: "요약 노트" (Chorus Tokens)

이 논문은 **"왜 가방 전체를 들고 다니면서 검색하고 설명해야 할까?"**라고 질문합니다. 대신 **가방 속 물건들의 핵심만 담은 '요약 노트'**를 만들어서 두 가지 일을 모두 해결하자는 것입니다.

1. '합창단 토큰 (Chorus Tokens)'이라는 요약본

CREM 은 이미지와 텍스트를 보고, 그 방대한 정보에서 **핵심만 추려낸 16 개의 '요약 토큰'**을 만듭니다.

  • 비유: 1,000 장의 사진과 긴 설명문이 있다면, CREM 은 이를 16 줄의 핵심 요약문으로 압축합니다.
  • 이 요약본은 검색할 때는 이 16 줄만 비교하면 되므로 매우 빠르고 정확합니다.
  • 동시에 이 요약본을 바탕으로 질문을 받으면, 생성 능력도 유지됩니다.

2. '압축 훈련 (Compression-Driven Training)'

이 모델은 두 가지 일을 동시에 배웁니다.

  • 검색 훈련: "이 요약본 (16 줄) 을 보고, 어떤 질문과 가장 잘 맞는지 찾아라."
  • 생성 훈련: "이 요약본 (16 줄) 을 보고, 질문에 대한 답을 써라."
  • 핵심: 이 요약본을 만들 때, 모델은 "이 정보가 검색에 중요할까? 아니면 설명에 중요할까?"를 고민하며 양쪽 모두에 좋은 정보만 남기도록 훈련됩니다.

🚀 CREM 의 놀라운 성과

이 모델을 실험해 보니 다음과 같은 결과가 나왔습니다.

  1. 검색 능력 최강: 검색 전용으로만 훈련된 모델들보다 더 잘 찾습니다. (가방 전체를 다 뒤지는 것보다, 핵심 요약본을 비교하는 것이 더 효율적이었기 때문입니다.)
  2. 생성 능력 유지: 검색 능력을 키우기 위해 설명 능력을 버린 다른 모델들과 달리, CREM 은 원래의 설명 능력 (생성 능력) 을 거의 잃지 않았습니다.
  3. 압축의 힘: 흥미롭게도, 모델이 원래의 1,000 장 이미지 대신 16 개의 요약 토큰만 보고도, 원래 모델의 83% 정도의 이해도를 유지했습니다.
    • 실제 이점: 이는 컴퓨터의 메모리 (KV Cache) 를 획기적으로 줄여주어, 긴 문서를 처리할 때 속도를 높이고 비용을 아낄 수 있음을 의미합니다.

📝 한 줄 요약

CREM은 "방대한 정보를 **핵심 요약본 (Chorus Tokens)**으로 압축하는 기술"을 통해, **검색 (찾기)**과 **생성 (설명하기)**이라는 두 마리 토끼를 동시에 잡은 모델입니다.

기존에는 "검색을 잘하려면 설명을 못 하고, 설명을 잘하려면 검색이 느렸다"는 딜레마가 있었는데, CREM 은 **"핵심만 잘 추려낸 요약본"**을 통해 이 문제를 완벽하게 해결했습니다. 마치 복잡한 도서관의 모든 책을 다 읽지 않고도, 정확한 요약 노트만으로도 어떤 책이 어디 있는지 빠르게 찾고, 그 책의 내용도 잘 설명할 수 있는 똑똑한 사서 같은 존재입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →