A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能（AI）模型在芯片上跑得更快、更省电的故事。

为了让你轻松理解，我们可以把整个过程想象成一家超级繁忙的“智能餐厅”。

1. 背景：餐厅的困境（AI 的瓶颈）

想象一下，这家餐厅（AI 模型）非常受欢迎，顾客（用户）源源不断地来点菜。

传统做法（Transformer 模型）： 厨师每做一道菜，都要把之前所有顾客点的菜单（记忆）重新翻一遍，放在手边。随着顾客越来越多，菜单越来越厚，厨师大部分时间都在翻找菜单，而不是在炒菜。这就像现在的 AI 在生成文字时，大部分时间都在从巨大的内存（HBM）里搬运数据，而不是在计算。
新做法（Gated DeltaNet / GDN）： 聪明的厨师发明了一种新方法。他不再保留长长的菜单，而是把记忆浓缩成一个固定大小的“记忆小本子”（固定大小的状态）。无论顾客多少，这个本子的大小不变。
- 问题出在哪？ 虽然本子变小了，但在传统的超级厨房（GPU，如 NVIDIA H100）里，这个本子太大了，放不进厨师手边的操作台。厨师每做一道菜，都要跑到大仓库（HBM 内存）里把本子取出来，做完再放回去。
- 结果： 厨师大部分时间都在跑仓库（内存传输），而不是在炒菜（计算）。这就是论文说的“内存瓶颈”。

2. 解决方案：把厨房搬进“操作台”（FPGA 加速器）

作者们想出了一个绝妙的办法：既然本子只有 2MB 大，为什么不让它一直待在厨师手边的操作台上呢？

他们使用了一种特殊的芯片（FPGA），这种芯片就像是一个可以完全自定义的超级操作台。

核心创新： 他们把这个 2MB 的“记忆小本子”永久地放在了操作台内部（芯片上的 BRAM 内存）里。
效果： 厨师再也不需要跑大仓库了！每做一道菜，直接伸手就能拿到本子，写完放回原位。
比喻： 以前是“去图书馆借书 -> 回来读书 -> 还书”；现在是“把书直接放在书桌上”。

3. 技术魔法：如何做得更快？

仅仅把书放在桌上还不够，作者还优化了“读书和写字”的流程：

合并动作（五阶段流水线）：
- 以前：读一遍本子 -> 算一下 -> 写回本子 -> 再读一遍本子 -> 输出结果。（像是一个笨拙的工人，反复拿放工具）。
- 现在：作者重新设计了数学公式，让工人只读一次、只写一次，就能同时完成“读取记忆”和“更新记忆”的任务。就像是一个熟练的厨师，左手拿锅，右手加料，动作一气呵成。
分组并行（GVA 结构）：
- 餐厅有 32 个不同的“记忆通道”（Head）。作者发现，每两个通道可以共用一套“读菜单”的工具。
- 比喻： 就像两个厨师共用一把刀切菜，但各自有自己的砧板。这样既省了工具，又让两个人同时干活，效率翻倍。
流水线作业（Dataflow）：
- 当厨师 A 在“炒菜”时，助手 B 已经在准备下一道菜的“食材”了，助手 C 在把做好的菜端出去。大家互不干扰，像工厂流水线一样，永远在动。

4. 成果：快如闪电，省电如风

作者在 AMD 的 Alveo U55C 芯片上测试了这个设计，并与顶级的 NVIDIA H100 显卡进行了对比：

速度提升： 他们的芯片处理每个字的速度是 H100 显卡的 4.5 倍。
- 比喻： 如果 H100 需要 285 微秒（眨眼间的一小部分）来生成一个字，他们的芯片只需要 63 微秒。
省电惊人： 这是最惊人的部分。H100 显卡像一个巨大的电炉，功率高达 350 瓦；而他们的 FPGA 芯片只用了 9.96 瓦（大概相当于一个节能灯泡）。
- 能效比： 在生成同样多的文字时，他们的芯片比显卡省电 60 倍！
- 比喻： 显卡是开着大卡车送快递，虽然快但费油；FPGA 是骑着电动滑板车，虽然单次运量小，但在这个特定任务（只送固定大小的包裹）上，它既快又几乎不费电。

5. 总结：这意味着什么？

这篇论文告诉我们，对于新一代的 AI 模型（它们越来越依赖这种“固定记忆”的结构），传统的超级显卡（GPU）其实有点“大材小用”且“浪费能源”，因为它们被内存搬运拖累了。

作者设计的这个 FPGA 加速器，就像是为这种特定任务量身定做的专用赛车。它通过把数据“锁”在芯片内部，消除了搬运的浪费，让 AI 推理变得更快、更冷（温度低）、更绿（环保）。

一句话总结：
作者把 AI 的“记忆本”直接搬到了厨师的手边，并优化了切菜流程，让 AI 在生成文字时，不再需要气喘吁吁地跑仓库，从而实现了4.5 倍的速度提升和60 倍的省电奇迹。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景： 大型语言模型（LLM）的推理成本主要受限于矩阵乘法的计算成本和维持每层上下文的内存成本。传统的 Transformer 架构使用 Key-Value (KV) 缓存，其大小随序列长度线性增长（ $O(n)$ ），导致显存占用巨大。
新架构趋势： 为了克服这一限制，次二次方（Subquadratic）序列模型（如 Gated DeltaNet, GDN）被提出。它们用固定大小的循环状态（Recurrent State）替代 KV 缓存，将每层内存从 $O(n)$ 降低到 $O(1)$ 。例如，Qwen3-Next 模型采用了 75% 的 GDN 层。
核心痛点：
- 内存瓶颈： 在 Batch-1（单样本）解码阶段，GDN 的解码过程是**内存受限（Memory-Bound）**的。尽管计算量很小（约 4.2M FLOPs），但每个 token 都需要读取和写入整个固定大小的状态矩阵（对于 Qwen3-Next 配置，总状态大小为 2 MB）。
- GPU 局限性： 在 GPU（如 NVIDIA H100）上，这 2 MB 的状态必须每次 token 生成时都在高带宽内存（HBM）和计算单元之间往返传输。这导致算术强度（Arithmetic Intensity）极低（约 0.87 FLOP/B），远低于 GPU 的“脊点”（Ridge Point，25.6 FLOP/B），使得 GPU 性能受限于内存带宽而非计算能力。
- 现有方案不足： 即使优化了软件内核，也无法消除 HBM 往返传输的根本瓶颈。

2. 方法论 (Methodology)

作者提出了一种基于 FPGA 的数据流加速器，旨在通过持久化片上状态将负载从“内存受限”转化为“计算受限”。

A. 核心洞察：持久化片上状态 (Persistent On-Chip State)

利用 FPGA 特性： 现代 FPGA（如 AMD Alveo U55C）拥有约 17.6 MB 的片上 BRAM（块随机存取存储器）。
策略： 将 GDN 所需的完整 2 MB 循环状态矩阵永久驻留在片上 BRAM 中，而不是像 GPU 那样每次 token 生成都从 HBM 加载。
效果： 彻底消除了状态数据的片外 I/O 开销，仅通过 AXI 接口传输少量的输入 token（q/k/v 向量）和门控值。

B. 融合的五阶段流水线 (Fused Five-Phase Pipelined Datapath)

代数重构： 传统的 GDN 解码需要三次遍历状态矩阵（检索、状态更新、输出）。作者通过代数变换（公式 13），将输出计算 $S_t^T q$ 分解为：
$S_t^T q = (g \cdot S_{t-1} + k \Delta v^T)^T q = g \cdot S_{t-1}^T q + (q^T k) \Delta v$
流程优化： 这一重构允许在同一次读取中同时完成检索（ $r = S_{t-1}^T k$ ）和部分输出计算（ $\hat{o} = g \cdot S_{t-1}^T q$ ），然后在状态更新后直接修正输出，而无需再次读取更新后的状态。
结果： 将每个状态矩阵的访问次数从 3 次减少到 1 次读取 + 1 次写入，显著降低了流水线间隔（Initiation Interval, II）。

C. 分组值注意力并行 (GVA-Aware Paired-Head Parallelism)

结构利用： Qwen3-Next 采用 2:1 的分组值注意力（GVA）结构，即每对 Query/Key 头服务于两个 Value 头。
并行策略： 加速器利用这一特性，将同一组的两个 Value 头并行处理。Query 和 Key 向量被广播到两个处理单元（PE），但每个 PE 维护独立的状态矩阵和累加器。
优势： 在不增加 Q/K 存储开销的情况下，有效计算吞吐量翻倍。

D. 数据流流水线设计 (Dataflow Pipelining)

阶段重叠： 将解码过程分为三个阶段：准备（Prepare）、计算（Compute）、存储（Store）。
流水线重叠： 利用 HLS 数据流特性，使第 $n+1$ 次迭代的准备阶段与第 $n$ 次迭代的计算阶段、第 $n-1$ 次迭代的存储阶段并发执行。
设计空间探索： 在 AMD Alveo U55C 上探索了不同的并行度（ $H_{iter}$ ，即每次迭代处理的 Value 头数量），范围从 2 到 16。

3. 关键贡献 (Key Contributions)

首个 GDN 解码 FPGA 加速器： 提出了首个针对自回归 Gated DeltaNet 解码的 FPGA 加速器，通过在片上 BRAM 中持久化 2 MB 状态，消除了限制 GPU Batch-1 性能的片外内存往返瓶颈。
代数重构与融合流水线： 设计了一种五阶段融合流水线，通过代数重构将状态矩阵的访问次数减半（从 3 次降至 2 次），将迭代延迟降低了约 1.46 倍。
GVA 感知并行架构： 利用 Grouped Value Attention 结构，实现了 Query/Key 路径的共享和 Value 头的并行处理，在不增加流水线间隔的情况下扩展了并行度。
性能与能效验证： 在 Alveo U55C 上评估了四种配置，证明了其相对于 NVIDIA H100 GPU 的显著优势。

4. 实验结果 (Results)

实验在 AMD Alveo U55C FPGA 上进行，对比基准为 NVIDIA H100 PCIe GPU（运行官方 PyTorch 实现）。

延迟性能 (Latency)：
- 最优配置： 当每次迭代处理 8 个 Value 头（ $H_{iter}=8$ ）时，性能最佳。
- 速度提升： 实现 4.5 倍 的延迟降低（63 µs/token vs GPU 的 285 µs/token）。
- 异常点： 当 $H_{iter}=16$ 时，由于流水线间隔膨胀（从 ~2106 周期增加到 ~6300 周期）和布线拥塞，延迟反而上升至 77.4 µs，速度比降至 3.7 倍。
- 频率： 实现后的设计在 263 MHz 下运行（ $H_{iter}=2$ ）， $H_{iter}=4$ 虽满足时序但布线失败（88,725 个不可布线信号），表明 $H_{iter}=8$ 是资源与性能的最佳平衡点。
能效 (Energy Efficiency)：
- 功耗： 实现后的 $H_{iter}=2$ 设计片上功耗仅为 9.96 W（动态 6.54 W + 静态 3.42 W）。
- 能效比： 每个 token 的能耗为 1.61 mJ，相比 GPU 基准（99.8 mJ/token）提高了 62 倍。即使按 FPGA 板级 TDP (150W) 保守计算，能效提升也在 7.6 到 10.5 倍之间。
资源利用率：
- 在 $H_{iter}=8$ 时，BRAM 利用率约为 25%（主要用于存储 2MB 状态），DSP、FF 和 LUT 利用率均低于 25%。
- $H_{iter}=16$ 导致资源利用率过高（DSP 46%, LUT 52%），且未能带来性能提升。

5. 意义与结论 (Significance & Conclusion)

架构范式转变： 该工作证明了对于具有固定大小状态的次二次方模型（Subquadratic Models），FPGA 的片上存储能力可以彻底改变内存受限的瓶颈，将其转化为计算受限问题。
生产级应用潜力： 随着 Qwen3-Next 等混合架构 LLM 的普及，GDN 解码成为主要的 per-token 原语。该加速器为在数据中心 FPGA 上高效、低功耗地部署此类模型提供了可行路径。
未来方向： 作者计划将此持久状态数据流架构扩展到预填充（Prefill）阶段，并支持混合精度量化、稀疏 MoE 路由以及剩余 Softmax 层的协同加速，以实现单片 FPGA 上的大规模混合 LLM 推理。

总结： 这篇论文通过巧妙利用 FPGA 的片上存储和流水线技术，解决了线性注意力模型在 GPU 上因内存带宽受限而导致的性能低下问题，实现了显著的延迟降低和巨大的能效提升，为下一代 LLM 硬件加速提供了重要的设计参考。