LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

该论文提出了 LK 损失函数,通过直接优化推测解码中的接受率而非传统的 KL 散度,在无需额外计算开销的情况下显著提升了不同规模模型组合的接受长度与推理速度。

Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是如何让大语言模型(LLM)说话更快、更聪明

想象一下,大语言模型就像一位才华横溢但语速极慢的教授。他每说一个字,都要深思熟虑,查遍所有资料,确认无误后才肯开口。这导致他回答问题时非常慢,尤其是在需要生成很长一段文字时。

为了解决这个问题,科学家们发明了一种叫**“推测解码”(Speculative Decoding)**的技巧。

1. 现有的方法:教授和助手

现在的做法是:

  • 教授(目标模型):那个慢吞吞但极其准确的大模型。
  • 助手(草稿模型):一个反应快、脑子灵活但知识稍浅的小模型。

工作流程是这样的:

  1. 助手先快速猜出接下来要说的 5 个字(比如“今天天气真不错”)。
  2. 教授不一个个字地猜,而是一次性检查这 5 个字对不对。
  3. 如果教授说“对”,那这 5 个字就全通过了,速度瞬间提升 5 倍!
  4. 如果教授发现第 3 个字错了,那后面 2 个字就作废,只保留前 2 个,然后重新猜。

核心问题:
这个系统快不快,完全取决于助手猜对的概率(接受率)。猜得越准,教授一次性通过的字数就越多,速度就越快。

2. 以前的训练方法:只追求“像”

以前,科学家训练这个“助手”时,用的标准是**“尽量模仿教授”
这就好比让助手去背教授的文章,目标是
“你写的每一个字,概率分布都要和教授一模一样”**。

这在数学上叫最小化 KL 散度

  • 理想情况:如果助手和教授完全一样,那助手猜的每一个字教授都会接受,速度最快。
  • 现实情况:助手是个“小个子”(参数少),教授是个“大巨人”(参数多)。小个子永远无法完美模仿大巨人。
  • 尴尬的结局:助手拼命努力让自己“看起来像”教授,结果虽然很像,但在猜字这个具体任务上,并不是最优的。就像你拼命模仿名画家的笔触,结果画出来的画虽然神似,但如果你要用来做“猜谜游戏”,可能并不是赢面最大的画法。

3. 这篇论文的突破:直接追求“猜对”

这篇论文的作者(来自 Nebius 团队)发现了一个新路子:别管像不像,直接训练助手“猜对”!

他们提出了一个叫 LK Loss 的新训练方法。

用个比喻来理解:

  • 旧方法(KL 散度):就像教一个学生**“背诵标准答案”**。学生背得越像标准答案越好。但如果题目稍微变一下,或者学生记不住所有细节,他可能背得很像,但遇到新题就错了。
  • 新方法(LK Loss):就像教学生**“直接做对题目”**。不管你的解题思路是不是和标准答案一模一样,只要你的答案是对的,就给你高分。

具体怎么做的?

作者设计了两种“新教鞭”(损失函数):

  1. 直接打击法(Likelihood-based)
    直接告诉助手:“你猜对几个字,我就奖励你几分。”这直接优化了“猜对率”。

    • 难点:刚开始助手太菜了,猜得全是错的,老师(梯度)不知道该怎么教,因为全是负分,信号太弱。
  2. 混合双打法(Hybrid Objective)
    这是论文最精彩的部分。他们把“模仿教授”和“直接猜对”结合起来,并且分阶段教学

    • 初期(助手很菜时):主要让助手模仿教授(用 KL 散度)。这时候助手需要建立基本的语感,知道大概该说什么,避免乱猜。
    • 后期(助手有点水平了):逐渐减少“模仿”的权重,增加“猜对”的权重(引入 TV 距离)。这时候助手已经懂规矩了,就让他专注于提高猜对的命中率

这就像教骑自行车:

  • 刚开始,你扶着车把(模仿教授),让他保持平衡。
  • 等他稳住了,你就慢慢松手,让他自己去冲刺(直接优化猜对率),这时候他跑得更快。

4. 效果如何?

作者测试了从 80 亿参数到 6850 亿参数的各种大模型,以及不同类型的助手架构。结果非常惊人:

  • 平均猜对长度提升了 8% - 10%
    • 这意味着,以前助手猜 5 个字,教授可能只接受 3 个;现在能接受 3.5 个甚至更多。
    • 对于大模型来说,这 10% 的提升意味着推理速度显著变快,而且不需要增加任何额外的计算成本(不需要更贵的显卡,只是换了一种训练方法)。
  • 越小的助手,提升越大
    • 那些能力比较弱的“小助手”,因为以前被“模仿”训练法束缚住了,一旦改用“直接猜对”法,进步最明显。

5. 总结

这篇论文的核心思想很简单:不要为了“像”而训练,要为了“赢”而训练。

在让大模型加速的过程中,我们不需要助手完美复刻教授的思想,我们只需要助手能精准地猜出教授想说的话。这篇论文提供了一套简单、免费(不增加计算量)且通用的“新训练法”,让现有的大模型能跑得更快,就像给法拉利换上了一套更高效的空气动力学套件一样。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →