Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models

本文提出了一种名为 CAST 的推理成本感知动态树构建方法,通过综合考虑 GPU 配置和批量大小等系统变量来优化大语言模型的推测解码树结构,在多种任务和模型上实现了比传统方法快 5.2 倍、比现有最先进方法快 5% 至 20% 的推理加速效果。

Yinrong Hong, Zhiquan Tan, Kai Hu

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CAST 的新方法,旨在让大型语言模型(LLM,比如现在的各种 AI 聊天机器人)“说话”变得更快、更省资源。

为了让你轻松理解,我们可以把 AI 生成文字的过程想象成一家繁忙的餐厅,而 CAST 就是这家餐厅新引进的超级智能点菜系统

1. 背景:餐厅的“慢”问题

想象一下,现在的 AI 餐厅(大模型)非常厉害,能写出诗、代码甚至故事。但是,它的运作方式很传统:

  • 传统模式:厨师(AI)每次只能做一道菜(生成一个词)。做完这道菜,他必须停下来,亲自尝一口确认味道对不对(验证),确认无误后,才能开始做下一道菜。
  • 问题:如果客人要一份 100 道菜的宴席(生成一段长文本),厨师就得重复“做 - 尝 - 做 - 尝”100 次。这太慢了!而且厨房(GPU 显卡)很大,但厨师一次只忙一道菜,资源被浪费了。

2. 现有的改进:猜菜(推测解码)

为了解决慢的问题,科学家发明了“推测解码”(Speculative Decoding):

  • 新策略:请一位学徒厨师(小模型)先快速猜出接下来的几道菜是什么,然后主厨(大模型)一次性尝这几道菜。
  • EAGLE 系列(之前的技术):之前的 EAGLE-2 和 EAGLE-3 就像是一个聪明的学徒。他不再只猜一条线(做完一道猜下一道),而是画了一棵
    • 比喻:学徒不仅猜“红烧肉”,还猜“红烧肉配米饭”或者“红烧肉配面条”。他同时准备好几个分支,主厨一次性尝完,只要有一个分支是对的,就能直接上菜。这比传统方法快多了。

3. CAST 的突破:懂“成本”的超级管家

虽然 EAGLE 系列很聪明,但它们有一个盲点:它们只管“猜得多”,不管“猜得累不累”

  • 痛点:如果厨房(GPU)已经人满为患,或者客人很多(批量处理 Batch Size 大),学徒还在拼命猜更多的菜,反而会导致厨房拥堵,主厨排队等菜,整体速度反而变慢了。就像在早高峰的地铁里,硬塞更多人进去,反而谁都走不动。

CAST(本文提出的方法) 就像是一个懂成本的超级管家,它做对了三件事:

A. 动态调整“猜菜”的数量(广度修剪)

管家会实时观察厨房的状态:

  • 如果厨房很空,学徒就多猜几个分支,把树撑大,争取一次上更多菜。
  • 如果厨房很挤(比如批量处理 8 个客人),管家会立刻喊停:“别猜那么多了!再猜主厨就忙不过来了,反而更慢。”于是,它主动砍掉一些不必要的猜测分支。
  • 核心逻辑:不是猜得越多越好,而是要在“猜对的数量”和“厨房的负担”之间找到最佳平衡点

B. 动态决定“猜多深”(深度修剪)

管家还会看学徒的“自信程度”:

  • 如果学徒对接下来的菜非常有把握(概率高),管家就让他继续往深处猜(多猜几层)。
  • 如果学徒开始犹豫了(概率低),管家就及时止损,不再让他瞎猜,直接让主厨接手。
  • 比喻:就像你开车,路况好(自信高)就加速超车;路况差(自信低)就减速慢行,避免出事故。

C. 考虑“批量”和“硬件”

CAST 特别聪明的一点是,它知道不同的厨房设备(GPU 型号)和不同的客人数量(Batch Size),其“最佳猜测策略”是完全不同的。它会根据当前的实际情况,动态调整策略,而不是死板地套用同一个公式。

4. 效果如何?

论文通过大量的实验(就像在 6 种不同的餐厅场景、用 6 种不同的厨师团队进行了测试)发现:

  • 速度提升:CAST 比传统的“一道一道做”快了 5.2 倍
  • 超越对手:比目前最先进的 EAGLE-3 方法还要快 5% 到 20%
  • 稳定性:无论客人多还是少,无论用什么样的厨房设备,CAST 都能自动调整,保持高效。

总结

简单来说,CAST 就是给 AI 的“猜词”过程装上了一个“智能油门”
以前的 AI(EAGLE 系列)是只要脚踩油门就猛冲,不管前面是不是堵车;
现在的 CAST 会看路况(硬件负载、批量大小),该加速时加速,该减速时减速,确保在不浪费资源的前提下,用最快的速度把菜(文字)端上桌。

这就是为什么它能让 AI 聊天、写代码、做数学题变得更快、更流畅的原因。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →