GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何让 AI 芯片（空间加速器）跑得更快、更省电的论文。为了让你轻松理解，我们可以把AI 芯片想象成一个超级繁忙的物流仓库，把矩阵乘法（GEMM，AI 的核心计算）想象成搬运和组装巨大的乐高积木。

这篇论文提出的 GOMA，就是给这个仓库设计的一套**“完美物流调度方案”**。

1. 背景：为什么现在的方案不够好？

想象一下，你有一个巨大的乐高城堡要组装（这是 AI 任务），仓库里有成千上万个工人（计算单元 PE），还有不同大小的货架（内存：DRAM、SRAM、寄存器）。

问题在于： 怎么安排工人？先搬哪块积木？积木堆在哪个货架上？
- 如果安排得不好，工人可能要走很远的路去拿积木（浪费电），或者大家挤在一起互相撞车（效率低）。
- 现状： 以前的方法像是在玩“猜谜游戏”。
  - 随机搜索： 像盲人摸象，随机试几种方案，运气好可能找到不错的，但很难找到最好的。
  - 启发式搜索： 像经验丰富的老工头，凭经验猜，但面对超大规模任务时，经验也会失效，而且找最优解太慢了。
  - 数学近似： 试图用简单的公式估算，但为了好算，往往把复杂的现实“简化”了，导致算出来的结果和实际情况有偏差。

核心痛点： 可能的安排方案多到天文数字（组合爆炸），想要在一个合理的时间内找到绝对最优的那个方案，几乎是不可能的任务。

2. GOMA 的绝招：把“乱麻”变成“几何图形”

GOMA 的作者想出了一个绝妙的点子：别把数据当数据，把它们当成几何图形！

核心比喻：3D 乐高积木塔

想象你要组装的乐高城堡是一个3D 的立方体（由长、宽、高三个维度组成）。

输入数据 A 和 B：就像是这个立方体在三个不同方向上的**“投影”**（就像阳光照在墙上留下的影子）。
计算过程：就是在这个 3D 立方体里，一层一层地切块、搬运、组装。

GOMA 发现，无论你怎么安排工人和货架，本质上都是在做两件事：

切块（Tiling）： 把大立方体切成多少个小方块？
走路（Walking Axis）： 工人是沿着“长”走，还是沿着“宽”走？

GOMA 的魔法：
它发明了一套**“几何投影计数法”**。

以前，要算出搬一次东西要多少电，需要模拟整个复杂的流程，非常慢。
GOMA 发现，只要知道工人是沿着哪个方向走，就能直接通过几何公式算出：
- 哪个方向的“影子”（数据）是不变的？（可以重复利用，省电费）
- 哪个方向的“影子”在变？（需要重新搬运，费电费）
- 甚至，如果某个货架太挤，能不能直接让工人**“跳过”这个货架，直接从大仓库拿货给小仓库？（这叫Bypass/旁路**，GOMA 能自动决定什么时候该跳过）。

结果： 以前算一次能量消耗要跑很久，现在 GOMA 用O(1) 的公式（就像算 $1+1=2$ 一样快），瞬间就能算出任何方案的能耗。

3. GOMA 如何工作？（三步走）

几何抽象（画图）： 把复杂的芯片架构和计算任务，简化成一个标准的 3D 几何模型。
建立公式（列方程）： 基于上面的几何模型，写出了一个精确的数学公式。这个公式能瞬间算出：如果你这样安排，总共要消耗多少电。
全局最优解（找答案）： 既然算得这么快，GOMA 就把“寻找最佳方案”变成了一个数学优化问题。它像一个超级聪明的数学家，在约束条件（比如货架大小、工人数量）下，利用数学工具（整数规划求解器）直接算出唯一的最优解，并且保证这就是全世界最好的方案，没有之一。

4. 效果有多牛？

论文在真实的 AI 大模型（如 Llama、Qwen）和多种芯片架构上做了测试：

更省电、更快（EDP 提升 2.24 到 4.24 倍）： 相比目前最先进的方案，GOMA 找到的方案能让芯片在同样的时间内，少花 2 到 4 倍的电；或者在同样的电量下，快 2 到 4 倍。
速度快得惊人（求解时间快 3.8 到 73 倍）： 以前找最优方案可能需要跑几个小时甚至几天，GOMA 只需要几秒钟就能算出来，而且保证是“全球最优”。
可验证的“最优证书”： 它不仅能给你答案，还能给你一张“证书”，证明这个答案在数学上是绝对最优的，不像其他方法只能给你说“我觉得这个挺好了”。

总结

GOMA 就像是给 AI 芯片物流系统装上了一个**“上帝视角的几何导航仪”**。

它不再靠猜、靠经验或靠模拟，而是通过几何直觉把复杂的调度问题变成了简单的数学题，瞬间算出绝对完美的搬运路线。这让未来的 AI 芯片不仅能跑得更聪明，还能更省电、更快速，对于运行像大语言模型这样庞大的任务来说，是一个巨大的飞跃。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于GOMA（Geometrically Optimal Mapping via Analytical Modeling）的论文技术总结。GOMA 是一种针对空间加速器（Spatial Accelerators）上通用矩阵乘法（GEMM）的全局最优映射（Mapping）框架。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：随着深度学习（特别是 Transformer 架构和大型语言模型 LLM）的普及，GEMM 成为核心计算算子。空间加速器（如 Eyeriss, TPU, Gemmini 等）通过硬件 - 算法协同设计来加速这些算子。
核心挑战：
- 映射空间爆炸：GEMM 的映射空间（包括分块 Tiling、循环重排 Loop Permutation、层级旁路 Level Bypass 等选择）呈组合爆炸式增长（通常超过 $10^{10} $甚至$ 10^{20}$），使得穷举搜索不可行。
- 现有方法的局限性：
  - 启发式/随机搜索（如 Timeloop-mapper, LOMA）：难以在大规模离散空间中同时保证效率和最优解质量，通常只能找到次优解。
  - 可微分近似（Differentiable Approximation）：通过松弛整数约束来优化，但会引入近似误差和舍入误差，且难以满足严格的整除约束，无法保证全局最优。
  - 数学规划（Mathematical Programming）：理论上可行，但现有工作（如 CoSA）难以精确刻画真实硬件的能耗成本，且求解效率受限。
目标：在可接受的时间内，为任意（GEMM 负载，目标硬件）对找到可验证的全局最优映射，并保证极高的求解效率。

2. 方法论 (Methodology)

GOMA 的核心思想是将映射问题转化为基于几何抽象的整数优化问题。

A. 几何抽象 (Geometric Abstraction)

3D 计算网格：将 GEMM 计算 $P(x, y) = \sum A(x, z)B(y, z)$ 抽象为一个 3D 计算点集网格 $\mathcal{G}$ 。
正交投影：将输入矩阵 A、B 和输出 P 分别视为计算网格在三个正交平面（x-z, y-z, x-y）上的投影。
层级分块：硬件存储层级（DRAM -> SRAM -> PE Array -> Regfile -> MACC）被建模为对 3D 网格的层级覆盖。
行走轴（Walking Axis）：将循环顺序（Loop Permutation）抽象为网格在特定层级上的“行走方向”。当网格沿某一轴移动时，垂直于该轴的投影保持不变（数据可复用），而平行于该轴的投影需要更新（产生数据搬运）。

B. 解析能耗模型 (Analytical Energy Modeling)

流量计数：基于几何投影，GOMA 推导出跨层级数据搬运量的闭式解析解（Closed-form solution）。
- 数据流量 = 投影更新次数 $\times$ 投影面积。
- 通过“行走轴”机制，精确计算每个层级上 A、B、P 的更新频率（例如，沿行走轴移动时，垂直投影只需在列头更新一次，实现压缩）。
旁路机制（Level Bypass）：引入旁路决策变量，允许数据跳过中间存储层级（如从 DRAM 直接到 Regfile），从而重写数据访问链。模型以“接收端为中心”计算能耗，精确处理不同源端带来的能耗差异。
O(1) 评估：对于任何给定的映射配置，能耗评估的时间复杂度为常数 $O(1)$ ，且不随问题规模（矩阵大小）增长。模型与业界标准的 Timeloop 模拟器相比，一致性高达 99.9%。

C. 全局优化求解 (Global Optimization)

问题形式化：将映射搜索形式化为一个受硬件约束（容量、并行度、整除性）的整数线性规划（ILP）问题。
- 决策变量：各级分块大小、行走轴选择、各层级旁路策略。
- 目标函数：最小化总能耗（或能量 - 延迟积 EDP）。
求解器：使用 Gurobi 求解器配合分支定界（Branch-and-Bound）算法。
可验证性：求解器输出最优解的同时，提供最优性证书（Optimality Certificate，即上下界 Gap=0%），严格保证在建模约束下的全局最优性。

3. 主要贡献 (Key Contributions)

首创的几何抽象：从第一性原理出发，提出了 GEMM 映射的几何抽象方法，导出了精确的解析能耗目标函数，实现了 $O(1)$ 评估且与 Timeloop 高度一致。
统一的整数优化框架：首次将分块、循环重排和旁路决策统一建模为受硬件约束的整数优化问题，实现了自动化的映射搜索。
全局最优与可验证性：在映射空间探索中，首次实现了在极短时间内为任意（负载，硬件）对计算全局最优映射，并输出可验证的最优性证明。
开源：代码已开源。

4. 实验结果 (Results)

实验在 4 种代表性加速器模板（Eyeriss-like, Gemmini-like, A100-like, TPU v1-like）和 12 个 LLM 预填充（Prefill）工作负载（涵盖 Qwen 和 LLaMA 系列，从 0.6B 到 70B 参数规模）上进行。

能效比（EDP）：
- 相比现有的 SOTA 映射器（CoSA, FactorFlow, LOMA, SALSA, Timeloop Hybrid），GOMA 将能量 - 延迟积（EDP）提升了 2.24 倍到 4.24 倍。
- 在大规模矩阵乘法算子（如 Attention 和 MLP 层）上优势尤为明显，因为启发式方法在巨大的组合空间中难以找到高质量解。
求解速度：
- GOMA 的求解速度比现有方法快 3.83 倍到 73.6 倍。
- 平均每个 GEMM 算子的求解时间仅为 0.65 秒，最大不超过 3.6 秒，满足实时映射需求。
- 相比之下，CoSA 等基于枚举的方法在大规模问题上求解时间呈指数级增长。
鲁棒性：GOMA 在不同模型规模、序列长度和硬件资源下均表现出一致的最优性，而启发式方法在不同场景下表现波动较大。

5. 意义与影响 (Significance)

理论突破：证明了在复杂的离散映射空间中，通过几何抽象和解析建模，可以实现可验证的全局最优解，打破了以往“最优解不可求”或“求最优解太慢”的困境。
实用价值：为 LLM 等核心工作负载在空间加速器上的部署提供了自动化的、最优的映射生成工具，显著降低了能耗并提升了推理速度。
未来方向：GOMA 的框架为更复杂的场景（如多层映射探索、软硬协同优化）提供了可复用的基础。

总结：GOMA 通过创新的几何视角将复杂的映射问题转化为精确的数学优化问题，成功解决了空间加速器映射空间探索中的“效率 - 最优性”权衡难题，是目前该领域在理论严谨性和工程实用性上均达到 SOTA 水平的成果。