Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种全新的方法来衡量大语言模型（LLM）的“性价比”，作者将其称为**“信息容量”（Information Capacity）**。

为了让你轻松理解，我们可以把大语言模型想象成**“超级翻译官”，把“压缩文本”想象成“打包行李”**。

1. 核心问题：现在的模型太“费油”了

想象一下，现在的 AI 模型就像一辆辆性能越来越强的跑车。它们能写诗、写代码、做推理，非常聪明。但是，为了跑得更快（处理更多任务），它们需要消耗巨大的“燃油”（计算资源/电力）。

现状： 大家都拼命造更大的车（增加参数），但没人有一把精准的尺子，能同时衡量“车有多快”和“耗油多少”。
痛点： 现有的评价标准只看车跑得多快（比如考试分数），却忽略了它为了跑得快，是不是用了更笨重的引擎，或者是不是因为“油箱设计”（分词器）不好，导致每公里都要多跑很多冤枉路。

2. 新发明：“信息容量” = 打包高手的“压缩比”

作者提出了一个核心观点：“压缩”和“智能”是挂钩的。

比喻： 想象你要把一箱书（原始数据）寄给朋友。
- 笨办法： 直接把书塞进箱子，不管大小，箱子很大，运费（计算成本）很贵。
- 聪明办法（高智能）： 你非常了解书的内容，知道哪些词会重复出现，于是你把书压缩成极小的包裹。包裹越小，运费越低，而且说明你“懂”这本书。
信息容量： 就是衡量这个模型**“每花一块钱的油费，能帮你省多少打包空间”**的能力。
- 公式逻辑： （省下的打包空间）÷（花的油费）。
- 这个数值越高，说明模型越“聪明且省油”。

3. 三个关键发现（用生活场景解释）

A. 分词器效率：行李箱的“折叠术”

比喻： 分词器（Tokenizer）就像是把文字变成行李袋的折叠技巧。
- 有的模型（如 DeepSeek）折叠技巧高超，把“你好世界”四个字折叠成一个小方块（1 个 token）。
- 有的模型（如 Llama）折叠技巧一般，同样的四个字得用四个小方块（4 个 tokens）装。
发现： 论文发现，折叠技巧越好（每个 token 代表的信息越多），模型的“信息容量”就越高。 这就像是用更小的行李箱装同样的东西，省下的空间就是省下的钱。以前大家只关注车跑得快不快，却忽略了行李箱设计得合不合理。

B. 训练数据：读的书越杂，打包越顺手

比喻： 模型在训练阶段就像在读书。
- 如果只读英语书，它打包英文书时很顺手，但打包中文书时就手忙脚乱（需要更多空间）。
- 如果读了海量的高质量书籍（预训练数据），它就能更精准地预测下一个词，打包得更紧凑。
发现： 数据量越大、质量越高，模型的“打包能力”越强。但到了某个程度，再增加数据，提升的幅度就会变小（边际效应递减）。

C. 专家混合架构（MoE）：只派精兵，不派全员

比喻： 传统的模型（Dense）是全员上阵，不管遇到什么问题，所有员工都一起加班。
- MoE 模型（如 DeepSeek-V3）是**“特种部队”**。遇到数学题，只派数学专家；遇到写代码，只派程序员。其他专家在休息。
发现： 这种“只派精兵”的策略，让模型在保持高智商（打包很紧）的同时，大大降低了“加班费”（计算成本），从而获得了极高的“信息容量”。

4. 为什么这个指标很重要？

打破“唯参数论”： 以前大家觉得参数越多越聪明。现在发现，如果分词器设计得好，或者用了 MoE 架构，小模型也能干大模型的活，而且更省钱。
预测未来： 既然同一系列的模型（比如 Qwen3 系列）都有稳定的“信息容量”，我们只需要测试一个小一点的模型，就能精准预测大模型的表现，不用把大模型都训练一遍再测，省下了巨额算力。
揭示“偏科”： 论文发现，很多模型在英文上表现很好，但在中文或代码上“打包”能力很差。这说明它们存在语言偏见，就像一个只会说英语的翻译官，让他翻译中文就卡壳了。

总结

这篇论文就像给大模型行业发了一把**“新尺子”。
以前我们只问：“这辆车能跑多快？”（看基准测试分数）。
现在我们要问：“这辆车每加一升油，能跑多远？它的行李箱设计得合不合理？”（看信息容量**）。

这个指标告诉我们：未来的 AI 发展，不仅仅是堆砌参数，更是要学会“精打细算”，用更少的资源，做更聪明的压缩和预测。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**信息容量（Information Capacity, IC）**的新指标，用于评估大型语言模型（LLM）的推理效率。该指标基于文本压缩性能与计算复杂度之间的关系，旨在解决当前缺乏一种能够跨不同分词器（Tokenizers）、参数量及模型架构统一评估 LLM 效率的严格度量标准的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

资源消耗与效率矛盾： 随着 LLM 能力的提升（如推理、编码、工具使用）以及测试时扩展（Test-time scaling）的普及，对计算资源的需求急剧增加，导致巨大的能源消耗和成本。
现有评估指标的局限性： 现有的效率评估方法（如参数量、能力密度等）存在明显缺陷：
- 无法公平比较不同架构（如稠密模型 vs. MoE 模型）和不同分词器设计的模型。
- 忽略了分词器效率对推理成本的关键影响（分词器效率低会导致输入/输出 Token 数增加，从而显著增加计算延迟和成本）。
- 缺乏一个能够准确反映模型在推理阶段效率的统一指标。

2. 方法论 (Methodology)

2.1 核心概念：信息容量 (Information Capacity)

作者受“压缩与智能相关性”的启发，提出信息容量作为衡量模型效率的指标。其核心思想是：模型越智能，预测下一个 Token 的概率越准确，文本压缩的增益就越大；但更大的模型通常意味着更高的计算成本。信息容量定义为模型智能（数据压缩增益）与模型推理复杂度（计算量）的比值。

2.2 计算公式

信息容量 ( $IC$ ) 的计算公式经过修正，以消除样本长度影响并引入偏移量以稳定同一系列模型的表现：

$IC = \frac{\frac{1}{L-1}(C - \sum_{i=2}^{L} -\log_2 p(x_i|x_{<i}; M)) + b}{\log_2(N_M / (L-1))}$

其中：

分子（模型智能）： 代表压缩增益。 $C$ 是原始文本大小（UTF-8 编码）， $-\log_2 p$ 是算术编码后的符号长度（负对数似然，NLL）。 $b$ 是一个负偏移量，用于使同一系列不同大小的模型具有近似恒定的 IC 值，便于跨系列比较。
分母（推理复杂度）： 代表计算成本。 $N_M$ 是推理过程中的浮点运算次数（FLOPs），取对数尺度。
关键创新点： 明确纳入了分词器效率（通过 $C$ 体现，即每个 Token 的平均字节数）。高效的 Tokenizer 能用更少的 Token 表示相同文本，从而降低 $N_M$ 并提高 $IC$ 。

2.3 评估设置

数据集： 在 5 个异构数据集上评估了 56 个开源模型，包括混合文本、PDF 文档、中文教育文本、英文教育网页和代码（NextCoder）。
计算细节： 针对不同的注意力机制（GQA, MLA）和架构（Dense, MoE）精确计算 FLOPs。
控制变量： 统一使用 $T=1$ 的 Softmax 温度，截断序列长度至固定值（如 1024），并排除第一个 Token 以符合因果掩码特性。

3. 主要发现与结果 (Key Results)

3.1 同一系列模型的一致性

同一系列（Series）的不同大小模型（如 Qwen3 从 0.6B 到 14B）表现出一致的信息容量。这意味着 IC 可以作为跨尺度预测模型性能的基础。

3.2 影响信息容量的三大因素

分词器效率（主导因素）： 研究发现，IC 与“每个 Token 的平均文本大小”呈极强的线性正相关（相关系数 > 0.98）。高效的 Tokenizer 能显著降低推理成本，是提升 IC 的关键。
预训练数据： 增加预训练数据量通常能降低 NLL 并提升 IC，但存在边际收益递减现象。数据质量比单纯的数量更重要。
MoE 架构： 混合专家（MoE）架构通过激活少量参数来降低 FLOPs，同时保持较高的预测精度，从而获得比稠密模型更高的 IC。稀疏度（Sparsity Ratio）越低（总参数越多但激活参数不变），IC 提升越明显。

3.3 语言与领域偏差

主流 LLM 在不同语言和数据源上表现出显著的不平衡性。例如，Llama 和 Gemma 系列在中文语料（Ch-FineWeb-Edu）上的 IC 远低于中国公司的模型；Gemma 在代码（NextCoder）上的表现也较差。这揭示了模型在特定领域和语言上的能力偏差。

3.4 性能预测能力

跨尺度预测： 利用单一参考模型的信息容量，可以高精度预测同系列其他规模模型的 NLL 性能。实验显示，使用 0.5B 模型预测 72B 模型的 NLL，误差仅为 0.50%。
优于传统 Scaling Law： 相比传统的幂律（Power Law）拟合方法，基于信息容量的预测方法在跨尺度预测中更准确、更稳定，且无需大量多尺度训练数据。

3.5 与基准测试的相关性

信息容量与下游任务基准（如 MMLU, LiveCodeBench, C-Eval）得分呈正相关。特别是在评估数据集与基准任务领域一致时（如中文 IC 与 C-Eval 得分），相关性更强。

4. 主要贡献 (Key Contributions)

提出新指标： 定义了“信息容量”，首次将分词器效率、压缩性能和计算复杂度统一在一个指标中，填补了 LLM 推理效率评估的空白。
揭示关键因素： 量化了分词器效率、预训练数据和 MoE 架构对模型效率的具体影响，证明了分词器效率是决定 IC 的主导因素。
验证预测能力： 证明了 IC 的稳定性可用于跨尺度性能预测，提供了一种比传统 Scaling Law 更高效、更准确的模型开发辅助工具。
揭示偏差： 通过多语言、多领域评估，揭示了主流开源模型在语言和领域上的显著性能偏差。

5. 意义与影响 (Significance)

指导模型开发： 为未来的 LLM 开发提供了优化方向，强调在提升模型智能的同时，必须重视分词器设计和架构效率（如 MoE），以实现更高的“性价比”。
资源优化： 在推理成本日益高昂的背景下，IC 帮助开发者和用户选择最适合特定硬件和场景的模型，平衡性能与能耗。
评估标准化： 提供了一种跨架构、跨分词器的公平比较标准，有助于建立更科学的 LLM 评估体系。
加速研发： 通过单模型预测多模型性能，减少了大规模预训练和评估所需的计算资源消耗。

综上所述，该论文通过引入“信息容量”这一基于压缩理论的指标，不仅量化了 LLM 的推理效率，还深刻揭示了影响效率的关键因素，为构建更高效、更智能的大模型提供了重要的理论依据和实践指导。