HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

你好！这篇论文介绍了一种名为 HiAP 的新方法，专门用来给“视觉 Transformer"（一种非常强大但非常“吃”资源的 AI 模型）做瘦身手术。

为了让你轻松理解，我们可以把训练一个复杂的 AI 模型想象成经营一家超级繁忙的大型餐厅。

🍽️ 背景：为什么需要“瘦身”？

现在的顶级 AI 模型（视觉 Transformer）就像一家米其林三星餐厅。

优点：它做得菜（识别图片）非常好吃、非常准。
缺点：它太占地儿了！它需要巨大的厨房（显存）、太多的厨师（计算资源），而且上菜前还要把几百种食材搬来搬去（内存带宽）。
问题：这种大餐厅只能开在市中心（云端服务器），没法开在街边小店（手机、摄像头等边缘设备）上。

以前的“瘦身”方法（剪枝）就像请了一个挑剔的行政总厨，他拿着尺子，一刀一刀地砍掉厨师或食材。但这有两个大问题：

太死板：要么只砍掉整个灶台（宏观），要么只砍掉灶台里的某把刀（微观），很难同时兼顾。
太麻烦：总厨砍完一刀，发现菜不好吃了，得重新试菜、调整，反复折腾好几次（多阶段流程），最后还得人工决定砍多少。

🚀 HiAP 是什么？一位“会自我进化的智能主厨”

HiAP 提出了一种全新的思路：让餐厅自己决定怎么变瘦，而且是一次性搞定！

它引入了两个核心概念，我们可以用**“智能开关”**来比喻：

1. 双层开关系统（多粒度）

HiAP 给餐厅里的每个环节都装上了两层智能开关：

宏观开关（Macro-gates）：这是总闸。如果某个灶台（注意力头）或者整个配菜区（FFN 模块）完全没用，直接关掉整个区域，连人带设备都撤走。这能省下巨大的搬运食材的精力（内存带宽）。
微观开关（Micro-gates）：这是细调旋钮。如果某个灶台还要留着，但里面的某把刀（神经元）或者某种调料（维度）用得少，那就只关掉那把刀，保留灶台的其他功能。这能省下具体的切菜时间（计算量）。

比喻：以前的方法要么把整个厨房拆了，要么只把刀磨薄点。HiAP 则是：既拆掉不用的房间，又在不拆的房间裡把多余的椅子搬走，灵活得不得了。

2. 一次成型，无需“试错”（端到端）

以前的方法像“先砍后修”：先砍掉一部分，发现不好吃了，再重新训练修补。
HiAP 的方法是**“边长边剪”**：

在训练过程中，这些开关是模糊的（像半透明的玻璃），模型可以慢慢学习。
随着训练进行，这些开关会慢慢变硬，最终变成非黑即白（要么全开，要么全关）。
关键点：在这个过程中，模型自己学会了“为了省成本，我该砍掉什么”，不需要人工去设定“我要砍掉 30%"或者“我要砍掉第 5 层”。

🎯 它是如何工作的？（简单三步走）

设定目标：告诉模型，“你的目标是既要把菜做好（准确率），又要尽量省成本（计算量）”。
自动进化：
- 模型发现：“哎，第 12 层的配菜区好像完全没用，关掉它！”（宏观剪枝）。
- 模型又发现：“第 3 层的灶台留着，但里面的 64 把刀只用了 32 把，关掉多余的！”（微观剪枝）。
- 这一切都是模型自己在计算“如果关掉这个，省下的成本够不够抵消味道变淡的风险”。
最终交付：训练结束后，模型直接吐出一个精简版、物理上就变小的餐厅。不需要再重新装修，直接就能在街边小店（手机）上跑起来，速度飞快。

🌟 它的厉害之处

不用人工干预：不需要专家去定规则，模型自己学。
既省内存又省算力：以前的方法只能顾一头，HiAP 能同时解决“搬运食材累”（内存瓶颈）和“切菜慢”（计算瓶颈）两个问题。
结果好：在著名的 ImageNet 图片识别测试中，它把模型压缩了 33%，但准确率几乎没掉，甚至比很多复杂的方法还要好。

📝 总结

想象一下，HiAP 就像是一个拥有自我进化能力的智能管家。它不需要你拿着剪刀去剪衣服，而是让衣服在生长过程中，自动把多余的面料“代谢”掉，最后长出一件既合身又轻便的“紧身衣”。

这让原本只能在超级计算机上跑的“巨无霸”AI，变得可以轻松地装进你的手机、无人机或智能摄像头里，而且跑得飞快！

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
视觉 Transformer (ViT) 虽然性能卓越，但其巨大的计算量和内存带宽需求严重限制了其在边缘设备上的部署。

现有方法的局限性：
尽管现有的结构化剪枝方法（Structured Pruning）能有效降低理论 FLOPs，但存在两个主要缺陷：

粒度单一 (Single Granularity)：
- 微观剪枝（仅剪枝头内维度或 FFN 神经元）：虽然减少了计算量，但无法解决现代硬件上的主要瓶颈——内存带宽（DRAM/SRAM 访问）。因为网络深度和注意力头数量未变，硬件仍需加载所有层和注意力图，导致内存开销依然巨大。
- 宏观剪枝（仅剪枝整个注意力头或 FFN 块）：虽然能减少内存传输，但往往导致模型表示能力大幅下降，精度损失较大。
依赖人工启发式与多阶段流程 (Manual Heuristics & Multi-stage Pipelines)：
- 现有方法通常依赖复杂的后处理阈值设定（Post-hoc thresholding）或专家设计的排序指标（如基于梯度的重要性评分）。
- 通常采用“搜索 + 微调”的两阶段流程，计算成本高昂，且难以端到端优化。

目标：
开发一种无需人工预设稀疏度目标或手动重要性启发式规则，能够自动发现最优子网络结构的剪枝策略。

2. 方法论 (Methodology)

作者提出了 HiAP (Hierarchical Auto-Pruning)，这是一个连续松弛框架，通过单一端到端训练阶段自动发现最优子网络。

2.1 核心机制：分层随机门控 (Hierarchical Stochastic Gating)

HiAP 在 Transformer 块内部引入了两个层级的随机门控（基于 Gumbel-Sigmoid 分布），允许梯度流过离散的剪枝决策：

宏观门控 (Macro-gates)：
- 控制对象： 整个注意力头 (Attention Heads) 和 FFN 块 (FFN Blocks)。
- 作用： 决定是保留还是完全绕过（Bypass）整个组件。这直接解决了内存带宽瓶颈，因为被剪掉的块无需加载到内存。
微观门控 (Micro-gates)：
- 控制对象： 活跃宏观结构内部的维度（Head 内的 Value 维度）和 FFN 神经元。
- 作用： 在保留的组件内部进行细粒度的宽度剪枝，以优化计算量 (FLOPs)。

2.2 可微成本建模 (Differentiable Cost Modeling)

为了引导架构搜索，HiAP 构建了一个精确的、可微的 MACs（乘加运算）成本函数：

成本分解： 将计算成本分解为静态开销（如 Patch Embedding，不可剪）和动态开销（由门控控制）。
线性分解： 将总成本线性分解为三个部分：
1. $C_1$ ：宏观开销（计算 Q, K, V 投影和注意力图）。
2. $C_2$ ：微观开销（单个存活 Value 维度的注意力输出）。
3. $C_3$ ：微观开销（FFN 中单个存活神经元）。
优势： 这种分解允许优化过程明确地惩罚“空的结构开销”（即保留了一个头但内部维度极小），从而促使网络要么完全剪掉头，要么保留足够的内部维度。

2.3 训练策略与可行性约束

Gumbel-Sigmoid 松弛： 使用 Gumbel-Sigmoid 将二值门控松弛为连续变量 $\hat{z} \in (0, 1)$ ，支持端到端反向传播。
温度退火 (Temperature Annealing)： 训练过程中，温度参数 $\tau$ $τ$ 从初始值（如 2.0）逐渐衰减至接近 0。
- 早期：门控表现为随机 Dropout，迫使权重学习鲁棒表示。
- 后期：分布硬化为 0 或 1，自然收敛为离散子网络。
结构可行性惩罚 (Feasibility Penalties)： 为了防止“层坍塌”（Layer Collapse，即网络为了省钱直接剪掉整层导致梯度消失），引入了显式的约束项（如每层至少保留 $k_{min}$ 个头，或 FFN 保留一定比例神经元），保证前向传播的连通性。
单阶段端到端 (Single-Phase End-to-End)： 搜索（架构发现）与训练（权重更新）同步进行。训练结束后，直接根据概率阈值（>0.5）硬化门控并物理提取子网络，无需二次微调。

3. 关键贡献 (Key Contributions)

统一的多粒度框架： 提出了 HiAP，首次将宏观（头/块）和微观（神经元/维度）的结构化剪枝统一在一个可微框架中，同时优化内存带宽和计算量。
预算感知的自动发现： 设计了无需人工重要性排序、代理指标或预设稀疏度目标的损失函数。网络自主发现并硬化其最优子架构。
消除多阶段流程： 实现了“搜索即训练”，训练结束即得到可部署的物理子网络，显著简化了部署流程。
理论保证： 证明了该框架在表达力上是单一粒度方法的超集，并证明了期望成本与硬化后离散成本之间的对齐性。

4. 实验结果 (Results)

实验在 CIFAR-10 (ViT-Tiny) 和 ImageNet-1K (DeiT-Small) 上进行。

ImageNet-1K (DeiT-Small) 表现：
- 压缩率： 将 DeiT-Small 从 4.6G MACs 压缩至 3.1G MACs（约 33% 计算量减少）。
- 精度： Top-1 准确率达到 79.1%，仅比密集基线 (79.85%) 下降 0.75%。
- 对比 SOTA： 性能与复杂的 GOHSP、ViT-Slim 等多阶段方法相当甚至更优，但流程更简单。例如，在 3.1G MACs 下，HiAP (79.10%) 优于 S2ViTE (79.22% 但需多阶段) 和 WDPruning (78.55%)。
CIFAR-10 表现：
- 在 33% 和 50% 的压缩率下，HiAP 均优于基于 $\ell_1$ 范数排序和均匀比率剪枝的基线方法。
- 硬件加速验证： 在单 GPU 上，33% 剪枝模型的推理延迟从 5.57ms 降至 3.86ms，实现了 1.44 倍 的加速。这证明了剪枝后的子网络是物理紧凑的，无需稀疏卷积引擎即可加速。
结构分析：
- 网络表现出异质性：早期倾向于剪掉宏观结构（如完全移除最后一层的 FFN 块），随后在保留的块中进行微观维度的精细调整。
- 验证了去耦损失函数的有效性：网络学会了避免“保留所有头但维度极小”的低效状态。

5. 意义与总结 (Significance)

范式转变： HiAP 将 ViT 剪枝从“基于人工启发式的多阶段工程”转变为“基于预算感知的单阶段学习问题”。
实际部署价值： 通过同时解决内存带宽和计算瓶颈，并直接输出物理压缩的模型，HiAP 极大地降低了边缘设备部署 ViT 的门槛。
通用性： 该方法不依赖特定的硬件后端，生成的子网络是标准的稠密网络，可直接在现有硬件上运行。
未来方向： 虽然当前优化的是 MACs，未来可结合平台校准的延迟/能耗信号，或与 Token 剪枝、量化等技术结合，进一步扩展应用范围。

总结： HiAP 通过分层随机门控和可微成本建模，成功实现了一种自动化、端到端的 ViT 剪枝方案，在保持高精度的同时显著降低了计算和内存开销，为资源受限环境下的 Transformer 部署提供了强有力的解决方案。