COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Each language version is independently generated for its own context, not a direct translation.

이 논문은 COMI라는 새로운 기술을 소개합니다. 이 기술은 거대한 언어 모델 (LLM) 이 아주 긴 글을 읽을 때 겪는 문제를 해결해 줍니다.

간단히 말해, **"긴 글을 읽을 때, 중요한 건 챙기고 불필요한 건 과감히 버리는 똑똑한 비서"**라고 생각하시면 됩니다.

이 기술이 왜 필요하고, 어떻게 작동하는지 일상적인 비유로 설명해 드릴게요.

1. 왜 이런 기술이 필요할까요? (문제 상황)

상상해 보세요. 친구가 당신에게 1,000 페이지 분량의 긴 소설을 주고 "이 중에서 주인공이 죽은 장면을 찾아줘"라고 요청했다고 칩시다.

기존의 방식 (컴퓨터의 한계): 컴퓨터는 1,000 페이지를 한 번에 다 읽으려다 머리가 터질 것 같습니다 (계산 비용이 너무 많이 듭니다).
단순 요약의 문제: "중요한 부분만 골라내라"고 해서 무작정 10 페이지로 줄인다면? 중요한 장면이 빠질 수도 있고, 중복된 내용 (예: "주인공이 죽었다"는 문장이 5 번 반복됨) 이 그대로 남아있을 수 있습니다. 이렇게 되면 컴퓨터는 "아, 이 부분 중요하구나!"라고 생각하지만, 사실은 같은 말을 5 번 반복해서 듣고 있는 꼴이 되어 혼란스러워집니다.

이 논문은 **"중요한 정보 (관련성)"**와 **"중복되지 않은 정보 (다양성)"**를 동시에 챙겨서 글을 압축하는 방법을 제안합니다.

2. COMI 의 핵심 아이디어: '마진 정보 이득 (MIG)'

이 기술의 핵심은 **MIG(Marginal Information Gain)**라는 개념입니다. 이를 **'새로운 정보의 가치'**라고 부르겠습니다.

기존 방식: "이 문장이 질문과 얼마나 관련이 있는가?"만 봅니다. (예: "사과가 빨갛다"는 질문과 관련이 있으니 중요!)
COMI 의 방식: "이 문장이 질문과 관련이 있으면서, 이미 다른 문장들에서 말한 내용과 겹치지 않는가?"를 봅니다.

비유:
친구에게 여행 계획을 세우라고 했을 때,

기존 방식: "파리 여행"이라는 단어가 10 번 나오면 다 중요하다고 해서 10 개를 다 챙깁니다. (하지만 내용은 다 똑같죠?)
COMI 방식: "파리 여행"이라는 단어가 10 번 나오면, 처음에 나온 1 개만 챙기고 나머지는 "이미 들었으니 필요 없어"라고 잘라냅니다. 대신 "파리 여행"과 관련된 다른 새로운 정보 (예: "에펠탑", "루브르 박물관") 가 있다면 그걸 더 챙깁니다.

즉, 중요하면서도 중복되지 않는 '진짜 정보'만 골라내는 것입니다.

3. 어떻게 작동할까요? (두 단계 과정)

COMI 는 글을 압축할 때 두 단계로 나누어 아주 정교하게 처리합니다.

1 단계: 거친 분류 (Coarse-Grained) - "어떤 구역을 더 챙겨야 할까?"

긴 글을 여러 개의 작은 블록 (구획) 으로 나눕니다.

상황: 10 개의 블록이 있는데, 질문과 관련된 내용이 1 번 블록에 몰려 있고, 2 번 블록은 아무것도 없어요.
COMI 의 행동: "1 번 블록은 내용이 많고 중요하니까 적게 자르고 (압축率低), 2 번 블록은 내용이 없으니까 많이 자르고 (압축率高) 버려!"라고 결정합니다.
비유: 식탁 정리를 할 때, 맛있는 요리가 놓인 접시는 크고 넓게 두고, 빈 접시는 접어서 치우는 것과 같습니다.

2 단계: 정밀 통합 (Fine-Grained) - "같은 블록 안에서도 중복을 없애자"

각 블록 안의 단어 (토큰) 들을 다시 살펴봅니다.

상황: 1 번 블록 안에 "사과가 빨갛다", "사과 색은 빨간색이다", "빨간 사과"라는 문장이 모두 있다고 칩시다.
COMI 의 행동: 이 세 문장은 다 '사과'와 '빨강'을 말하지만, 중복이 심합니다. COMI 는 이들을 하나로 합치되, 가장 핵심적인 의미만 남기고 나머지는 뭉개버립니다.
비유: 사진 편집을 할 때, 비슷한 구도에서 찍은 사진 10 장을 모두 저장하는 대신, 가장 선명하고 좋은 사진 1 장만 고르는 것과 같습니다.

4. 결과는 어떨까요?

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

압축률 32 배: 글을 32 배나 줄였는데도, 원래 글을 다 읽었을 때보다 정답을 맞추는 능력이 훨씬 좋아졌습니다.
기존 기술과의 비교: 기존에 있던 다른 압축 기술들보다 정확도가 약 25 점이나 더 높았습니다. (시험 점수로 치면 70 점대에서 95 점대로 올라간 셈입니다.)

5. 한 줄 요약

COMI는 긴 글을 읽을 때, "중요한 건 챙기고, 같은 말은 반복해서 들지 않게" 지혜롭게 정보를 정리해주는 기술입니다. 덕분에 컴퓨터는 더 빠르고, 더 정확하게 긴 글을 이해할 수 있게 되었습니다.

이 기술은 앞으로 AI 가 책 한 권, 혹은 뉴스 기사 수십 개를 순식간에 읽고 요약해 줄 때, 핵심만 짚어주는 '최고의 비서' 역할을 하게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, 긴 문맥 (Long Context) 상황에서의 배포는 두 가지 주요 장애물에 직면해 있습니다.

계산 비용: Transformer 의 어텐션 메커니즘은 시퀀스 길이에 대해 이차적 (quadratic) 복잡도를 가지므로, 긴 입력 시 계산 효율성이 떨어집니다.
정보의 중복성 (Redundancy): 긴 문맥에는 질문과 무관하거나 서로 매우 유사한 중복된 정보가 많이 포함되어 있어, 모델의 성능을 저하시키고 잘못된 추론을 유발할 수 있습니다.

기존의 문맥 압축 방법들은 크게 두 가지 한계가 있습니다:

태스크 무관 (Task-Agnostic) 방법: 입력 질문을 고려하지 않아 중요한 정보를 누락하거나 희석시킵니다.
태스크 인지 (Task-Aware) 방법: 질문과 관련된 정보만 남기지만, 중요도 (Relevance) 만을 기준으로 하여 중복된 유사 정보를 과도하게 보존하는 문제가 있습니다. 이는 "관련성은 있지만 중복된" 정보가 모델에 유입되어 오류를 발생시키는 원인이 됩니다.

따라서, 높은 압축 비율 하에서도 질문과 관련된 정보를 유지하면서 동시에 의미적 중복성을 제거하여 다양성 (Diversity) 을 최적화하는 방법이 필요합니다.

2. 제안 방법론: COMI (Methodology)

저자들은 **COMI (Coarse-to-fine Context Compression via Marginal Information Gain)**라는 새로운 프레임워크를 제안합니다. 이는 한계 정보 이득 (Marginal Information Gain, MIG) 지표를 활용하여 문맥을 coarse-to-fine(거시적에서 미시적) 으로 압축하는 2 단계 프로세스를 따릅니다.

핵심 지표: 한계 정보 이득 (Marginal Information Gain, MIG)

기존의 단순한 관련성 (Relevance) 측정을 넘어, 질문과의 관련성에서 다른 토큰들과의 의미적 중복성 (Semantic Redundancy) 을 뺀 값으로 정의됩니다.

공식: $G(x_i, q, X) = \text{CosineSimilarity}(x_i, q) - \max_{x_j \in X, j \neq i} \text{CosineSimilarity}(x_i, x_j)$
의미: 질문과 관련성이 높으면서도, 다른 토큰들과는 덜 유사한 (독특한) 정보를 가진 토큰에 높은 점수를 부여합니다.

2 단계 압축 전략

거시적 그룹 재할당 (Coarse-Grained Group Reallocation):
- 입력 문맥을 동일한 길이의 그룹 (Segment) 으로 나눕니다.
- 각 그룹의 대표 토큰에 대해 그룹 간 MIG를 계산합니다.
- MIG 가 높은 그룹 (정보 가치가 높고 중복성이 낮음) 은 낮은 압축 비율을, MIG 가 낮은 그룹은 높은 압축 비율을 적용하여 압축 예산을 동적으로 재분배합니다.
미세한 토큰 병합 (Fine-Grained Token Merging):
- 각 그룹 내에서 그룹 내 MIG를 계산하여 토큰에 가중치를 부여합니다.
- MIG 가 높은 토큰은 병합된 표현에 더 크게 기여하도록 **가중 평균 (Weighted Merging)**을 수행합니다.
- 이를 통해 그룹 내의 "관련성은 높지만 중복된" 정보를 제거하고 핵심 의미만 보존합니다.

학습 아키텍처

Encoder-Decoder 구조: 인코더는 문맥을 압축하고, 디코더는 압축된 표현과 질문을 기반으로 답변을 생성합니다.
Layer Semantic Alignment (LSA): 인코더와 디코더 간의 계층적 의미 불일치를 해결하기 위해 LSA 모듈을 도입하여 압축된 표현의 품질을 보장합니다.
Joint Instruction Tuning: 압축된 표현을 기반으로 질문과 정답을 학습하여 모델의 추론 능력을 유지합니다.

3. 주요 기여 (Key Contributions)

MIG 지표 도입: 단순한 관련성뿐만 아니라 의미적 중복성을 함께 고려하는 새로운 압축 지표를 제안하여, 장기 문맥 압축에서 정보 가치 평가의 한계를 극복했습니다.
COMI 프레임워크 개발: MIG 기반의 coarse-to-fine 적응형 압축 전략을 구현하여, 그룹 간 예산 재할당과 그룹 내 토큰 병합을 통해 중복성을 효과적으로 제거하면서도 핵심 정보를 보존합니다.
광범위한 실험 검증: 다양한 질문 답변 (QA) 및 요약 작업에서 기존 최첨단 방법 (SOTA) 들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

LLaMA-2-7B 와 Qwen2-7B 를 백본으로 사용하여 NaturalQuestions, 2WikiMQA, HotpotQA, NarrativeQA(질문 답변) 및 MultiNews(요약) 에서 실험을 수행했습니다.

성능 향상: 높은 압축 비율 (예: 32 배) 에서도 기존 베이스라인 대비 압도적인 성능을 기록했습니다.
- NaturalQuestions (Qwen2-7B, 32x 압축): 기존 최상위 베이스라인 대비 약 25 점의 Exact Match (EM) 점수 향상을 달성했습니다.
- 2WikiMQA 및 HotpotQA: 다단계 추론이 필요한 복잡한 질문에서도 높은 정확도를 유지했습니다.
압축 비율에 따른 강건성: 압축 비율이 2 배에서 32 배로 증가함에 따라 성능이 감소하는 경향은 보였으나, 다른 방법들 (Activation Beacon 등) 에 비해 성능 저하가 훨씬 적었습니다.
효율성: 엔드투엔드 지연 시간 (Latency) 에서 원본 프롬프트 대비 2 배 이상의 속도 향상을 보였습니다.
Ablation Study: MIG 기반의 그룹 재할당과 토큰 병합, 그리고 중복성 제거가 모두 성능 향상에 필수적임을 입증했습니다.
초장문맥 확장성: 64K 토큰 길이의 문맥에서도 COMI 가 원본 프롬프트 사용 시보다 훨씬 높은 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 긴 문맥 처리 문제를 해결하기 위해 관련성 (Relevance) 과 다양성 (Diversity) 의 균형을 맞추는 새로운 패러다임을 제시합니다.

중복성 제거의 중요성 강조: 단순히 중요한 정보만 남기는 것이 아니라, 중복된 정보를 제거하여 정보의 밀도와 다양성을 높이는 것이 고압축 환경에서 모델 성능을 결정하는 핵심 요소임을 증명했습니다.
실용적 가치: 계산 비용을 줄이면서도 모델의 추론 능력을 유지하거나 오히려 향상시킬 수 있어, RAG(검색 증강 생성) 및 초장문맥 분석과 같은 실제 응용 분야에서 큰 잠재력을 가집니다.

결론적으로 COMI 는 MIG 라는 새로운 척도를 통해 문맥 압축의 한계를 극복하고, 효율적이고 정확한 장기 문맥 모델링을 가능하게 하는 중요한 진전을 이루었습니다.