Speculating Experts Accelerates Inference for Mixture-of-Experts

该论文提出了一种利用模型内部表示预测未来专家并执行预取的技术,通过使内存传输与计算重叠,显著降低了内存受限环境下混合专家(MoE)模型推理的时间延迟。

Vivan Madan, Prajwal Singhania, Abhinav Bhatele, Tom Goldstein, Ashwinee Panda

发布于 2026-03-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型人工智能(AI)模型在普通电脑上跑得更快、更聪明的方法。为了让你轻松理解,我们可以把整个 AI 模型想象成一个超级巨大的图书馆,而 AI 的推理过程就是读者在图书馆里找书并写读后感的过程。

1. 核心问题:图书馆太大,书搬不动

现在的 AI 模型(称为“混合专家模型”或 MoE)非常庞大,就像一座拥有数亿本书的巨型图书馆。但是,你的电脑(GPU,相当于读者的书桌)太小了,放不下所有的书。

  • 现状:当读者(AI)需要写下一句话时,他必须去书架上找特定的几本书。因为书桌放不下,大部分书都堆在隔壁的仓库(CPU/内存)里。
  • 瓶颈:读者每写一个字,就得停下来,跑去仓库把需要的书搬回书桌。这个“搬运”的过程非常慢,甚至比“读书写字”本身还要慢得多。这就导致 AI 说话结结巴巴,速度很慢。

2. 传统做法:按需取书(On-Demand Loading)

以前的做法是“按需取书”:

  1. 读者写完一句话。
  2. 思考下一句需要什么书。
  3. 停下来,跑去仓库搬书。
  4. 搬回来,继续写。
    结果:大部分时间都花在“跑仓库”上,效率极低。

3. 这篇论文的妙招:预言家与“猜书”(Speculating Experts)

这篇论文提出了一种**“预言家”**策略,核心思想是:不要等写完了再搬书,而是边写边猜下一句需要什么书,提前把书搬过来。

关键创新点:

  • 准隐藏状态(Quasi-Hidden State)
    想象读者在写句子时,虽然还没完全决定下一句用什么词,但他脑子里的**“思维流”(比如刚才的语境、情绪、逻辑走向)其实已经暗示了下一句大概需要哪类书。
    论文发现,通过分析读者当前的“思维流”(一种数学上的向量表示),可以非常准确地
    猜出**下一句大概率会用到哪几本书。

  • 重叠工作(Overlap)
    当读者正在书桌前写字(计算)的时候,他的助手(CPU 搬运工)正在同时根据读者的“思维流”去仓库把下一句可能用到的书搬过来。

    • 以前:写字 -> 停 -> 搬书 -> 写字。
    • 现在:写字 + 搬书(同时进行)。
      这样,“搬书”的时间就被“写字”的时间完全掩盖了,读者感觉不到停顿,速度自然就上去了。

4. 如果猜错了怎么办?(准确性问题)

你可能会问:“如果猜错了,搬了不需要的书,或者没搬需要的书,AI 会不会变傻?”

  • 通常情况:论文发现,AI 的“思维流”非常精准,猜对的概率极高。即使偶尔猜错,AI 也能通过上下文自我修正,写出来的文章质量(准确率)几乎和原来一样好
  • 特殊情况:在某些复杂的开头部分,AI 的“思维流”变化很快,容易猜错。为了解决这个问题,作者还训练了一个**“轻量级预言家”**(Neural Estimator)。
    • 这个预言家专门负责在容易猜错的阶段(比如文章开头)进行更精准的预测。
    • 它就像给普通读者配了一个**“超级导航仪”**,专门在路况复杂的时候指路,确保搬回来的书一定是正确的。

5. 实际效果:快了多少?

通过在开源的推理引擎(YALIS)中应用这个方法:

  • 速度提升:AI 生成每个字的时间减少了 5% 到 14%
  • 体验:对于用户来说,这意味着 AI 回答问题的速度明显变快了,而且不需要昂贵的超级计算机,普通的显卡也能跑得动。

总结

这就好比你在做饭:

  • 以前:炒一个菜,停下来去冰箱拿下一个菜需要的调料,炒完再停,再去拿。
  • 现在:你一边炒菜,旁边的助手就根据你刚才的口味,提前把下一个菜需要的调料切好、洗好放在手边。
  • 结果:你不用停下来,做饭的速度自然大大加快,而且味道(质量)一点没变。

这篇论文就是教 AI 如何拥有这种“未卜先知”的能力,让它在资源有限的情况下,也能跑得飞快。