COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 COMI 的新方法，旨在解决大语言模型（LLM）在处理超长文本时遇到的“记不住”和“算得慢”的问题。

为了让你更容易理解，我们可以把大语言模型想象成一个正在备考的超级学霸，而它需要阅读的超长文档（比如几十万字的技术手册或长篇小说）就是复习资料。

1. 核心痛点：学霸的“复习困境”

当复习资料太厚时，学霸面临两个大问题：

脑子转不动（计算成本高）： 阅读每一页都需要消耗大量精力，如果书太厚，考试前根本读不完。
信息太杂（冗余）： 书里有很多重复的废话，或者说了三遍同样的道理。如果学霸把整本书都背下来，不仅累，还容易把重点和废话搞混，导致答题时抓不住重点。

以前的压缩方法主要有两种：

不管问题瞎压缩（任务无关）： 就像学霸不管考什么，把书里每页都删掉一半。结果可能把关键公式删了，只留下了废话。
只看相关性压缩（任务相关）： 学霸只找跟考试题目相关的句子。但这有个问题：书里可能有十句都在说“地球是圆的”，虽然都相关，但意思重复。学霸把十句都背下来，既浪费脑子，又没增加新信息。

2. COMI 的解决方案：聪明的“二步走”策略

COMI 就像给学霸配备了一位超级助教，这位助教使用一种叫 “边际信息增益” (MIG) 的独家秘籍来帮学霸整理笔记。

什么是“边际信息增益” (MIG)？
这就好比你在整理笔记时，不仅要看这句话有没有用（相关性），还要看它是不是废话（冗余性）。

如果一句话很有用，但前面已经说过同样的了，那它的“边际增益”就很低（因为没提供新东西）。
如果一句话很有用，而且是第一次出现，那它的“边际增益”就很高。
MIG = 有用程度 - 重复程度。助教只保留那些“既有用又不重复”的内容。

COMI 的整理过程分两步走：

第一步：粗粒度“分块重排” (Coarse-Grained Group Reallocation)

比喻： 把整本厚书切成 8 个大章节。
操作： 助教先快速浏览这 8 个章节，看看哪个章节跟考试题目最相关，且废话最少。
- 如果第 3 章全是干货且独特，助教就给它留更多篇幅（比如保留 20 页）。
- 如果第 7 章虽然有点用，但跟第 3 章重复太多，或者废话连篇，助教就给它大幅删减（比如只留 5 页）。
目的： 确保有限的“复习时间”（压缩后的长度）都花在刀刃上，哪里重要留哪里。

第二步：细粒度“去重融合” (Fine-Grained Token Merging)

比喻： 在保留下来的章节内部，把每一页里的句子再精简一下。
操作： 假设第 3 章保留了 20 页，里面可能有 100 个句子。助教发现其中 5 个句子都在说“地球是圆的”。
- 以前的方法可能把这 5 句都留着。
- COMI 的助教会把这 5 句融合成一句最精华的总结，同时把那些“虽然相关但重复”的句子扔掉。
目的： 在微观层面消除重复，确保留下的每一个字都是独一无二的干货。

3. 效果如何？

论文通过大量实验证明，COMI 非常厉害：

压缩能力强： 即使把 32 万字的书压缩成原来长度的 1/32（只留一点点），学霸依然能考高分。
成绩提升大： 在自然问答（NaturalQuestions）等测试中，COMI 比目前最好的其他方法（如 Activation Beacon）在准确率上提高了约 25 分。这就像在同样的复习时间里，别人只能及格，而用了 COMI 的学霸能拿满分。
适应性强： 无论是回答具体问题（如“谁发明了电话”），还是总结长文章（如“把这篇新闻写成摘要”），COMI 都能表现出色。

总结

COMI 就是一个“去粗取精、去重留新”的智能压缩助手。

它不再盲目地删减文字，而是像一位经验丰富的编辑，拿着“相关性”和“独特性”两把尺子，动态地调整每一段内容的保留比例。它确保了大语言模型在有限的“大脑内存”里，只装下最有价值且互不重复的信息，从而在超长文本任务中既快又准。

这就好比给学霸发了一本定制版的“考前必背精华手册”，里面没有一句废话，全是考点，让他能轻松应对任何长篇大论的考试。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

大型语言模型（LLM）在处理长上下文场景（如检索增强生成 RAG、长文档问答）时面临两大核心挑战：

计算效率低：Transformer 架构中注意力机制的二次方复杂度导致长序列推理成本高昂。
信息冗余：长上下文中存在大量与查询无关或高度重复的内容，不仅浪费计算资源，还可能干扰模型性能（“迷失在中间”现象）。

现有方法的局限性：

任务无关压缩（Task-Agnostic）：不考虑输入查询，仅压缩整体语义，容易在高压缩率下丢失关键查询相关信息。
任务感知压缩（Task-Aware）：虽然考虑了查询相关性，但通常仅以相关性为压缩标准，忽略了自然语言中固有的语义冗余。这导致模型保留了大量“相关但高度相似”的内容，不仅没有有效压缩，反而可能误导模型产生错误输出。
动态分配机制不足：现有的动态压缩率分配往往基于预定义规则或仅看相关性，未能同时平衡相关性（Relevance）与多样性/低冗余（Diversity/Low Redundancy）。

核心研究问题：如何在高压缩率下，既保留与查询相关的信息，又能识别并消除压缩单元之间的语义冗余，从而联合优化相关性和多样性？

2. 方法论 (Methodology)

作者提出了 COMI（Coarse-to-fine Context Compression via Marginal Information Gain），这是一个基于编码器 - 解码器架构的由粗到细的自适应上下文压缩框架。其核心创新在于引入了**边际信息增益（Marginal Information Gain, MIG）**指标，并采用两阶段压缩策略。

2.1 核心指标：边际信息增益 (MIG)

MIG 定义为单元对查询的相关性减去其与其他单元的语义冗余。
对于 token $x_i$ ，查询向量 $q$ 和上下文 $X$ ，MIG 计算公式为：
$G(x_i, q, X) = \text{cos}(x_i, q) - \max_{x_j \in X, j \neq i} \text{cos}(x_i, x_j)$

第一项：衡量与查询的相关性。
第二项：衡量与上下文中其他最相似 token 的冗余度。
作用：MIG 鼓励保留那些既与查询高度相关，又与其他已选 token 差异较大的信息，从而在压缩过程中最大化信息多样性。

2.2 两阶段压缩流程

阶段一：粗粒度组重分配 (Coarse-Grained Group Reallocation)

分组：将原始上下文 $X$ 划分为 $m$ 个等长的非重叠片段（组）。
评估：计算每个片段代表向量与查询的 MIG（考虑片段间的相关性和冗余性）。
动态分配：根据 MIG 值动态调整每个片段的压缩率。
- MIG 高的片段（高相关、低冗余）：分配较低的压缩率（保留更多 token）。
- MIG 低的片段：分配较高的压缩率（大幅压缩）。
目的：确保压缩预算根据信息价值分布进行自适应重分配，避免“一刀切”。

阶段二：细粒度 Token 合并 (Fine-Grained Token Merging)

加权融合：在每个组内部，根据组内每个 token 的 MIG 值计算权重（Softmax 形式）。
合并：将组内所有 token 加权合并为单个压缩 token。
$\tilde{h}_i = \sum \frac{e^{G(h_k)}}{\sum e^{G(h_k)}} \cdot h_k$
目的：在组内进一步消除冗余，确保合并后的表示保留了关键语义，同时避免“相关但冗余”内容的累积。

2.3 训练策略

采用编码器 - 解码器架构，引入**层语义对齐（LSA）**模块以解决跨层语义错位问题。
训练目标为交叉熵损失，联合微调编码器、LSA 模块和解码器的投影矩阵（ $W_Q, W_K, W_V, W_O$ ），使模型学会从压缩后的表示中生成正确答案。

3. 主要贡献 (Key Contributions)

提出 MIG 指标：首次将“边际信息增益”引入上下文压缩，联合建模任务相关性和语义冗余，克服了仅依赖相关性的方法的局限性。
设计 COMI 框架：提出了一种由粗到细的自适应压缩策略。
- 粗粒度：基于组间 MIG 动态调整压缩预算。
- 细粒度：基于组内 MIG 进行加权融合，消除组内冗余。
广泛的实验验证：在问答（NaturalQuestions, 2WikiMQA, HotpotQA, NarrativeQA）和摘要（MultiNews）任务上，使用不同骨干模型（LLaMA-2-7B, Qwen2-7B）进行了验证，证明了其在高压缩率下的优越性。

4. 实验结果 (Results)

实验在多个基准数据集上进行，对比了包括 StreamLLM, SnapKV, Activation Beacon, LongLLMLingua, ICAE, GMSA 等在内的多种基线方法。

整体性能：COMI 在高压缩率下显著优于所有基线。
- 典型案例：在 NaturalQuestions 数据集上，使用 Qwen2-7B 作为骨干，在 32 倍压缩约束下，COMI 的 Exact Match (EM) 分数比次优基线提高了约 25 个百分点。
- 多任务表现：在单跳、多跳问答以及超长文本（NarrativeQA, 32K+）和摘要任务上均取得了 SOTA 或接近 SOTA 的效果。
消融实验：
- 移除“粗粒度组重分配”会导致性能下降，证明动态分配预算的重要性。
- 移除“细粒度 Token 合并”会导致性能下降，证明消除组内冗余的必要性。
- 仅考虑相关性而忽略冗余（无论是粗粒度还是细粒度）都会导致性能显著降低。
效率分析：
- 在 32 倍压缩下，COMI 相比原始提示（Original Prompt）实现了超过 2 倍 的端到端加速。
- 压缩阶段的计算开销较低，主要收益来自生成阶段序列长度的大幅缩短。
原生长上下文模型的影响：即使在支持 256K 原生上下文的 Qwen3-4B 上，COMI 在 16 倍和 32 倍压缩下依然能超越使用完整原始提示的性能，证明了其作为增强模块的有效性。

5. 意义与结论 (Significance & Conclusion)

理论意义：COMI 证明了在长上下文压缩中，多样性（低冗余）与相关性同等重要。仅关注相关性会导致信息密度的降低和模型性能的退化。MIG 指标为评估信息价值提供了一个更鲁棒的理论框架。
应用价值：
- 显著降低了 LLM 处理长文本的推理成本（显存和计算时间）。
- 提升了模型在极端压缩率下的表现，使得在资源受限设备上部署长上下文应用成为可能。
- 不仅适用于 RAG 场景，也适用于长文档摘要和复杂推理任务。
总结：COMI 通过引入边际信息增益，成功实现了在高压缩率下对关键信息的精准保留和对冗余信息的有效剔除，为高效、高质量的长上下文建模确立了新的标准。

代码开源：论文指出代码将在 https://github.com/Twilightaaa/COMI 公开。