MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

本文提出了 MiniCPM-SALA,一种通过混合稀疏与线性注意力机制、采用层选择策略及混合位置编码,并利用低成本持续训练框架将预训练 Transformer 模型转化为支持高达 100 万 token 上下文且推理速度提升 3.5 倍的 90 亿参数高效长文本模型。

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MiniCPM-SALA 的新模型。为了让你轻松理解,我们可以把大语言模型(LLM)想象成一个超级聪明的图书管理员,而这篇论文的核心就是解决这个管理员在“阅读超长书籍”时遇到的两个致命难题:记不住(内存不够)和读太慢(计算太慢)。

以下是用通俗语言和生动比喻对这篇论文的解读:

1. 核心痛点:为什么现在的 AI 读长文这么累?

想象一下,如果你要读一本有 100 万字的小说,传统的 AI 模型(基于 Transformer 架构)就像是一个强迫症式的读者

  • 全量记忆(Full Attention):每读到一个新字,他都要把前面读过的所有字重新在脑子里过一遍,看看它们之间有什么关系。
  • 后果
    • 太慢:书越厚,他复习前面的内容花的时间就越长(计算量是平方级增长的,N2N^2)。
    • 太占脑子:为了记住所有细节,他需要巨大的大脑空间(显存)。读几百万字时,普通电脑甚至直接“脑死亡”(显存溢出,OOM),根本读不下去。

2. 现有方案的缺陷:要么记不住,要么算不完

为了解决这个问题,以前的科学家尝试过两种方法,但都有缺点:

  • 稀疏注意力(Sparse Attention):就像只读“重点章节”或“目录”。
    • 优点:快,省脑子。
    • 缺点:容易漏掉关键信息,就像只看了目录就以为懂了整本书,细节全丢了。
  • 线性注意力(Linear Attention):就像把书的内容压缩成“摘要”或“思维导图”。
    • 优点:极快,非常省脑子,读多厚的书都轻松。
    • 缺点:因为压缩了,细节丢失严重,读起来“没那味儿”,理解力下降。

3. MiniCPM-SALA 的绝招:混合双打(Hybrid)

MiniCPM-SALA 的聪明之处在于,它不选边站队,而是搞“混合双打”。它把上述两种方法结合在了一起,就像给图书管理员配了一个超级助手团队

  • 75% 的助手(线性注意力):负责处理宏观大局。他们像速记员,把长长的上下文压缩成高效的摘要,保证读得飞快,且不占太多脑子。这解决了“读太慢”和“记不住”的问题。
  • 25% 的助手(稀疏注意力):负责精读细节。当遇到关键段落或需要深度推理时,他们像侦探一样,精准地回头去翻找具体的原文细节,确保信息不丢失。这解决了“理解力下降”的问题。

比例怎么定?
论文发现,1 个“精读侦探”配 3 个“速记员”(1:3 的比例)是最佳组合。这样既保证了速度,又保留了高智商。

4. 训练秘诀:不是“从零学起”,而是“老树发新芽”

通常训练一个新模型,就像让一个婴儿从头开始学说话,成本极高,耗时极长。
MiniCPM-SALA 采用了一种**“变身”策略**:

  • 它基于一个已经学富五车的成熟模型(MiniCPM-4.0)进行改造。
  • 就像给一个经验丰富的老员工换了一套“混合装备”,而不是重新招一个新人从头培训。
  • 效果:训练成本降低了约 75%。这意味着用更少的钱、更短的时间,就能得到一个同样聪明甚至更高效的模型。

5. 惊人的成果:小身材,大能量

这个模型虽然只有 90 亿参数(相当于一个中等身材的图书管理员),但表现却像是一个拥有 800 亿参数 的巨人:

  • 速度起飞:在处理 25 万字(256K tokens)的长文时,它的推理速度是传统模型的 3.5 倍
  • 内存杀手
    • 传统的 80 亿参数模型,读到 50 万字时,普通显卡(如 A6000)就“爆显存”死机了。
    • MiniCPM-SALA 却能轻松读完 100 万字(1M tokens)的巨著,而且是在单张消费级显卡(如 RTX 5090)上就能跑通。
  • 能力不减:虽然读得飞快,但它的数学、代码、常识能力并没有因为“读得快”而变笨,依然和那些慢吞吞的“全知全能”模型一样强。

总结

MiniCPM-SALA 就像是一个“身轻如燕”的超级侦探
它不再试图记住每一粒灰尘(全量记忆),而是学会了**“抓大放小,关键处精读”。通过75% 的速记 + 25% 的精读**,加上低成本的老模型改造,它让普通的电脑也能轻松处理百万字的超长文档,让长文本 AI 应用真正变得便宜、快速且可行

这对于未来让 AI 帮你读完整个公司的代码库、分析整年的医疗记录或理解复杂的法律合同,具有革命性的意义。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →