Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

该论文提出了名为“信息容量”的新指标,通过结合文本压缩性能与计算复杂度(特别是纳入常被忽视的分词器效率),对大语言模型的推理效率进行了统一评估,揭示了不同规模模型间信息容量的稳定性及主流模型的语言偏差,并为预测模型性能与指导未来扩展提供了有效依据。

Cheng Yuan, Jiawei Shao, Xuelong Li

发布于 2026-03-11
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种全新的方法来衡量大语言模型(LLM)的“性价比”,作者将其称为**“信息容量”(Information Capacity)**。

为了让你轻松理解,我们可以把大语言模型想象成**“超级翻译官”,把“压缩文本”想象成“打包行李”**。

1. 核心问题:现在的模型太“费油”了

想象一下,现在的 AI 模型就像一辆辆性能越来越强的跑车。它们能写诗、写代码、做推理,非常聪明。但是,为了跑得更快(处理更多任务),它们需要消耗巨大的“燃油”(计算资源/电力)。

  • 现状: 大家都拼命造更大的车(增加参数),但没人有一把精准的尺子,能同时衡量“车有多快”和“耗油多少”。
  • 痛点: 现有的评价标准只看车跑得多快(比如考试分数),却忽略了它为了跑得快,是不是用了更笨重的引擎,或者是不是因为“油箱设计”(分词器)不好,导致每公里都要多跑很多冤枉路。

2. 新发明:“信息容量” = 打包高手的“压缩比”

作者提出了一个核心观点:“压缩”和“智能”是挂钩的。

  • 比喻: 想象你要把一箱书(原始数据)寄给朋友。
    • 笨办法: 直接把书塞进箱子,不管大小,箱子很大,运费(计算成本)很贵。
    • 聪明办法(高智能): 你非常了解书的内容,知道哪些词会重复出现,于是你把书压缩成极小的包裹。包裹越小,运费越低,而且说明你“懂”这本书。
  • 信息容量: 就是衡量这个模型**“每花一块钱的油费,能帮你省多少打包空间”**的能力。
    • 公式逻辑: (省下的打包空间)÷(花的油费)。
    • 这个数值越高,说明模型越“聪明且省油”。

3. 三个关键发现(用生活场景解释)

A. 分词器效率:行李箱的“折叠术”

  • 比喻: 分词器(Tokenizer)就像是把文字变成行李袋的折叠技巧
    • 有的模型(如 DeepSeek)折叠技巧高超,把“你好世界”四个字折叠成一个小方块(1 个 token)。
    • 有的模型(如 Llama)折叠技巧一般,同样的四个字得用四个小方块(4 个 tokens)装。
  • 发现: 论文发现,折叠技巧越好(每个 token 代表的信息越多),模型的“信息容量”就越高。 这就像是用更小的行李箱装同样的东西,省下的空间就是省下的钱。以前大家只关注车跑得快不快,却忽略了行李箱设计得合不合理。

B. 训练数据:读的书越杂,打包越顺手

  • 比喻: 模型在训练阶段就像在读书
    • 如果只读英语书,它打包英文书时很顺手,但打包中文书时就手忙脚乱(需要更多空间)。
    • 如果读了海量的高质量书籍(预训练数据),它就能更精准地预测下一个词,打包得更紧凑。
  • 发现: 数据量越大、质量越高,模型的“打包能力”越强。但到了某个程度,再增加数据,提升的幅度就会变小(边际效应递减)。

C. 专家混合架构(MoE):只派精兵,不派全员

  • 比喻: 传统的模型(Dense)是全员上阵,不管遇到什么问题,所有员工都一起加班。
    • MoE 模型(如 DeepSeek-V3)是**“特种部队”**。遇到数学题,只派数学专家;遇到写代码,只派程序员。其他专家在休息。
  • 发现: 这种“只派精兵”的策略,让模型在保持高智商(打包很紧)的同时,大大降低了“加班费”(计算成本),从而获得了极高的“信息容量”。

4. 为什么这个指标很重要?

  1. 打破“唯参数论”: 以前大家觉得参数越多越聪明。现在发现,如果分词器设计得好,或者用了 MoE 架构,小模型也能干大模型的活,而且更省钱。
  2. 预测未来: 既然同一系列的模型(比如 Qwen3 系列)都有稳定的“信息容量”,我们只需要测试一个小一点的模型,就能精准预测大模型的表现,不用把大模型都训练一遍再测,省下了巨额算力。
  3. 揭示“偏科”: 论文发现,很多模型在英文上表现很好,但在中文或代码上“打包”能力很差。这说明它们存在语言偏见,就像一个只会说英语的翻译官,让他翻译中文就卡壳了。

总结

这篇论文就像给大模型行业发了一把**“新尺子”
以前我们只问:“这辆车能跑多快?”(看基准测试分数)。
现在我们要问:“这辆车每加一升油,能跑多远?它的行李箱设计得合不合理?”(看
信息容量**)。

这个指标告诉我们:未来的 AI 发展,不仅仅是堆砌参数,更是要学会“精打细算”,用更少的资源,做更聪明的压缩和预测。