Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

该论文提出了一种无需训练的“慢 - 快”推理框架(SFI),利用句子内注意力支持稳定性的观察,通过交替执行低成本的快速解码步和触发于语义边界的慢速重算步,在保持生成质量的同时显著提升了长上下文及长思维链场景下的推理吞吐量。

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SFI (Slow-Fast Inference,慢 - 快推理) 的新方法,旨在让大型人工智能模型(LLM)在处理超长文本时,速度更快、成本更低,但智商不下降

为了让你轻松理解,我们可以把 AI 生成文字的过程想象成一位正在写长篇小说的作家

1. 现在的痛点:作家太累了

目前,AI 写每一句话(每一个字)时,都要重新阅读之前写过的所有几千甚至几万字的内容,以确保上下文连贯。

  • 比喻:想象这位作家每写一个新字,都要把整本已经写好的书从头到尾重新翻一遍,找出哪里提到了什么。
  • 后果:随着书越写越长,翻书的时间越来越久,写作的速度就越来越慢,而且非常消耗体力(计算资源)。

2. 核心发现:作家的“记忆”其实很稳定

作者观察到一个有趣的现象:在一个句子或一个短段落里,作家的注意力其实非常稳定。

  • 比喻:当作家正在写“今天天气真好,我去了公园”这句话时,他的注意力一直集中在“天气”和“公园”这几个词上。他不需要每写一个字就去翻书的前面部分找“昨天吃了什么”。只有当话题转换了(比如从“公园”转到了“回家”),或者到了一个新的段落时,他才需要重新审视之前的内容。
  • 结论:AI 的注意力在短时间里是“懒惰”的,不需要每次都全量刷新。

3. SFI 的解决方案:慢 - 快交替策略

基于这个发现,SFI 设计了一套**“慢 - 快”交替的工作流**:

🐢 慢步骤 (Slow Steps):定期“深度复习”

  • 什么时候做? 当作家写完一个句子,或者遇到句号、换行符等“语义边界”时。
  • 做什么? 这时候,作家会停下来,认真地、完整地把之前的内容重新读一遍(全量注意力)。
  • 目的:这次深度阅读是为了更新他的“便签本”。他会把刚才读到的最重要、最相关的几个关键词(比如“公园”、“阳光”)记在便签上,准备接下来的写作。

🐇 快步骤 (Fast Steps):凭“便签”快速写作

  • 什么时候做? 在两个“慢步骤”之间,作家连续写很多个字的时候。
  • 做什么? 作家不再翻整本书了!他只看手里那张刚更新好的**“便签”**(稀疏记忆),结合最近刚写的几个字,就继续往下写。
  • 效果:因为不需要翻整本书,速度极快!而且因为便签上记的都是刚才深度复习确认过的重要信息,所以写出来的内容依然很连贯、很准确。

4. 关键角色:智能“选书员” (The Selector)

这里有个很聪明的机制:怎么知道该把哪些内容记在“便签”上?

  • 比喻:在“慢步骤”深度阅读时,有一个超级选书员。他不仅看刚才读到的内容,还会结合一些经验法则(比如:不要只记太新的词,也不要记那些虽然字很大但没实际意义的词)。
  • 作用:他通过一套数学公式,把“刚才读到的重点”和“经验法则”结合起来,精准地挑选出最有用的几十个词记在便签上,供接下来的“快步骤”使用。

5. 系统优化:不让“复习”耽误时间

为了让这套方法在现实中跑得更快,作者还做了两个系统层面的优化:

  1. 并行处理:当作家在写下一段(快步骤)时,后台的助手已经在为下一轮“深度复习”(慢步骤)整理资料了。就像一边做饭一边洗菜,互不耽误。
  2. 整理书架:把常用的“便签”内容整理成整齐的一摞,放在手边最顺手的地方,而不是散落在乱糟糟的书架上,这样拿取速度更快。

6. 最终效果:又快又准

  • 速度提升:在长文本任务中,SFI 让 AI 的生成速度提升了 1.6 倍到 14.4 倍!随着文本越长,优势越明显。
  • 质量不变:虽然大部分时间只看“便签”,但测试结果显示,AI 写出来的东西和“每次都翻全书”的模式相比,质量几乎一模一样,甚至在某些长难任务中更好。
  • 无需训练:最重要的是,这个方法不需要重新训练 AI 模型。就像给现有的作家换了一套更聪明的笔记法,直接就能用。

总结

SFI 就像给 AI 装了一个“智能便签系统”。它不再死板地每写一个字都翻遍全书,而是偶尔深度复习,平时只看重点便签。这让 AI 在处理超长对话、长篇小说或复杂推理任务时,既保持了高智商,又跑得飞快,大大降低了使用成本。