Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

本文提出了 Quasar,一种无需训练的量化自推测加速框架,它通过在验证阶段采用低比特量化来有效降低显存带宽压力,在保持与全精度方法相当的接受长度的同时,将端到端吞吐量提升了 1.28 倍。

Guang Huang, Zeyi Wen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 Quasar 的新技术,它的目标是让大型人工智能模型(LLM,比如写小说、写代码的 AI)说话和思考的速度变得更快,而且不需要牺牲回答的质量。

为了让你更容易理解,我们可以把 AI 生成文字的过程想象成**“一位严谨的编辑(目标模型)在审核一位速记员(草稿模型)写下的草稿”**。

1. 以前的困境:编辑太慢,瓶颈在“审核”

在传统的“推测性解码”(Speculative Decoding)技术中,流程是这样的:

  • 速记员(Draft Model):动作很快,能一口气猜出接下来要写的 5 个词。
  • 编辑(Target Model):动作很慢,但非常严谨。他必须把速记员猜的这 5 个词,一个一个地拿过来,用“全精度”(就像用显微镜看一样,极其精细)的方式去核对,看看对不对。

问题出在哪里?
虽然速记员猜得很快,但编辑核对得太慢了。因为编辑核对时,需要把庞大的“记忆库”(模型权重)从内存里搬运到处理器里。这就好比编辑每次核对一个词,都要把整个图书馆搬过来看一眼
这就导致了**“内存墙”**问题:不管速记员多快,只要编辑还在忙着搬运图书馆,整体速度就快不起来。

2. Quasar 的妙招:给编辑戴上一副“快速眼镜”

Quasar 的核心思想非常巧妙:既然编辑核对时不需要每次都看“显微镜”级别的细节,那能不能给他换一副“快速眼镜”呢?

  • 以前的做法:编辑用“全精度”(BF16,像 16 位的高清图)去核对。数据量很大,搬运很慢。
  • Quasar 的做法:给编辑换上一副**“低比特量化眼镜”(W8A8,像 8 位的压缩图)**。
    • 这副眼镜把模型权重的数据量直接减半了(从 16 位变成 8 位)。
    • 因为数据量变小了,从内存搬运到处理器的速度就快了一倍
    • 关键点:这副眼镜虽然简化了细节,但保留了核心的逻辑和判断力。就像你戴了墨镜看东西,虽然颜色淡了点,但你依然能认出那是“苹果”还是“香蕉”,不会把苹果看成香蕉。

3. 为什么这招这么厉害?(生活中的类比)

想象一下,你要在一堆杂乱的物品中找出特定的东西:

  • 旧方法:你拿着放大镜(全精度),把每个物品都拿起来,仔细研究它的纹理、重量、成分。这太慢了,而且你的手臂(内存带宽)很快就累了。
  • Quasar 方法:你戴上了一副特制的护目镜(量化)。这副眼镜让你能一眼扫过去,虽然看不清纹理,但能瞬间分辨出形状和轮廓
    • 结果:你找东西的速度快了一倍,而且找对的东西并没有变少

4. 实验结果:快,而且准

作者做了很多测试(比如在数学题、写代码、写故事等任务上):

  • 速度快了:整体速度提升了 1.28 倍。在那些特别吃内存的任务(比如复杂的数学推理)上,甚至提升了 1.6 倍
  • 质量没降:AI 回答问题的准确率几乎和原来一模一样。
  • 不需要重新训练:这是一个“即插即用”的插件,不需要花几个月去重新训练 AI 模型,直接给现有的模型装上这个“快速眼镜”就能用。

5. 为什么不用“砍掉编辑的胳膊”?(对比剪枝)

有人可能会想:既然编辑太慢,能不能直接砍掉他的一部分功能(比如只让他用 50% 的大脑)?

  • 剪枝(Pruning)的失败:作者发现,如果强行砍掉模型的一部分层(就像把编辑的胳膊砍掉),虽然单次核对变快了,但编辑脑子糊涂了,经常把对的词判成错的,导致速记员猜的都没用,整体反而更慢。
  • Quasar 的胜利:Quasar 没有砍掉任何功能,只是简化了数据的精度。编辑还是那个完整的编辑,只是换了一种更高效的“阅读方式”。

总结

Quasar 就像是为 AI 模型发明了一种**“智能压缩传输协议”**。它解决了 AI 推理中“搬运数据太慢”的瓶颈,让 AI 在保持高智商的同时,说话和反应的速度像开了倍速一样快。

一句话总结:以前 AI 说话慢是因为“搬运资料”太累,Quasar 给 AI 配了个“压缩包”,让搬运变轻快,但判断力一点没丢。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →