A Study on Inference Latency for Vision Transformers on Mobile Devices

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“手机跑图大揭秘”**，主要研究了为什么现在的手机在运行一种叫"Vision Transformer (ViT)"的高级 AI 模型时，有时候会慢得像蜗牛，有时候又挺快。

为了让你更容易理解，我们可以把整个过程想象成**“在一个拥挤的厨房里做一顿复杂的晚餐”**。

1. 背景：为什么我们要关心这个？

以前，只有超级计算机（像云端服务器）才能处理复杂的图像识别（比如识别猫、狗、或者增强现实游戏）。现在，手机越来越强，也能干这些活了。

但是，AI 界有两种主要的“厨师”：

CNN（传统卷积神经网络）： 像是一个经验丰富的老厨师。他切菜、炒菜很有章法，一次只处理一小块区域（比如先切葱，再切肉），虽然步骤多，但很稳，手机跑起来很顺手。
ViT（视觉 Transformer）： 像是一个天才但有点“强迫症”的新厨师。他看菜的时候，不是只看眼前这一小块，而是一眼扫过整个盘子，思考每一块菜和盘子里其他所有菜的关系（这就是论文里说的“自注意力机制”）。虽然做出来的菜（识别结果）可能更美味、更精准，但他思考的过程非常烧脑，而且特别费内存。

论文的核心问题就是： 在资源有限的手机厨房里，这位“天才新厨师”（ViT）到底会不会把厨房（手机）搞崩溃？我们怎么知道他在不同手机上跑得快不快？

2. 研究发现：为什么 ViT 在手机上这么“难搞”？

作者测试了 190 种真实的 ViT 模型和 102 种 CNN 模型，发现了一些有趣的现象：

现象一：同样的工作量，ViT 更慢。
- 比喻： 假设老厨师（CNN）和天才厨师（ViT）都要切 1000 刀。老厨师切得行云流水，而天才厨师虽然也切了 1000 刀，但他每切一刀都要停下来思考“这块肉和那块菜有什么关系”，导致总时间变长了。
- 结论： 即使计算量（FLOPs）差不多，ViT 在手机上跑起来通常比 CNN 慢。
现象二：ViT 是个“内存饥渴症”患者。
- 比喻： 老厨师只需要一个小案板（内存）就能干活。但天才厨师需要把整个厨房的食材都摆在桌子上，还要随时拿起来对比，所以他的案板（内存）需求大得多。
- 结论： ViT 对手机内存的占用更大，而且随着图片变清晰（分辨率变高），它需要的内存会像火箭一样飙升。
现象三：手机里的“工具”不一样，速度天差地别。
- 比喻： 就像做菜，用“中式菜刀”和用“西式主厨刀”切出来的速度不一样。
- 结论： 手机里运行 AI 的软件框架（比如 PyTorch Mobile 和 TensorFlow Lite）就像不同的刀具。有时候同一个模型，用 A 框架跑要 10 秒，用 B 框架跑只要 5 秒。而且，内存的排列方式（像切菜是横着切还是竖着切）也会极大地影响速度。
现象四：有些“调料”（激活函数）很看心情。
- 比喻： 做菜的“激活函数”（比如 GELU）就像一种特殊的调料。有时候加一点，味道（计算速度）很好；有时候加多了，或者食材（输入数据）稍微变一点，这调料就变得很难处理，导致速度突然变慢。
- 结论： 传统的计算方法（数有多少刀）算不准 ViT 的速度，因为这种“调料”的速度取决于具体的食材（数据值）。

3. 作者做了什么？（造了一个“模拟器”）

既然直接测试所有可能的模型太慢、太贵，作者决定**“造一个虚拟厨房”**。

构建数据集： 他们设计了一个“乐高积木”式的生成器，可以组合出 1000 种不同的虚拟 ViT 模型。
全面测试： 他们在 6 种不同的手机（从苹果到三星，从高端到低端）和 2 种主流软件框架上，把这些虚拟模型跑了一遍，记录了详细的数据。
结果： 他们得到了一个超级详细的**“手机 AI 跑分数据库”**。

4. 这个数据库有什么用？（预测未来的速度）

有了这个数据库，作者训练了一个**“预言家”（AI 预测模型）**。

场景一：自动设计 AI（NAS）。
- 以前，想设计一个新的 AI 模型，得把它真正放到手机上跑一遍才知道快不快，这太慢了。
- 现在，有了这个“预言家”，设计师只要输入模型的结构，它就能秒级预测出：“这个模型在 iPhone 12 上大概需要 50 毫秒”。这让设计师可以像试衣服一样，快速筛选出既聪明又跑得快的模型。
场景二：云端协作（Split Inference）。
- 有些模型太大，手机跑不动。这时候可以把模型切两半，一部分在手机算，一部分在云端算。
- “预言家”可以告诉我们要切在哪里最划算：是手机多算一点省流量，还是云端多算一点省时间？它能精准计算出每一部分的耗时，帮你找到最佳平衡点。

5. 总结

这篇论文就像给手机 AI 开发者提供了一张**“避坑指南”和“导航地图”**：

提醒： 别盲目用最新的 ViT 模型，它们在手机上可能比传统模型更慢、更吃内存。
工具： 我们提供了一个巨大的数据集和预测工具，让你不用真的去跑模型，就能知道它快不快。
未来： 只要有了这个工具，未来的手机 AI 就能更聪明、更流畅，让我们在手机上看高清视频、玩 AR 游戏时不再卡顿。

简单来说，就是**“用大数据和预测算法，帮我们在手机这个‘小厨房’里，把‘大厨师’（ViT）安排得明明白白，让他干活既快又好。”**

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于移动设备上视觉 Transformer (ViT) 推理延迟的深入研究论文。作者来自南加州大学，他们通过量化分析 190 个真实世界的 ViT 模型和 102 个卷积神经网络 (CNN) 模型，揭示了 ViT 在移动设备上的性能瓶颈，并构建了一个包含 1000 个合成 ViT 的延迟数据集，用于训练高精度的延迟预测模型。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：随着移动硬件和 ML 框架的进步，复杂的计算机视觉任务（如运动分析、AR）开始部署在移动设备上。Vision Transformers (ViT) 在准确率上超越了传统 CNN，但其核心的自注意力机制 (Self-Attention) 计算成本高，且对内存资源要求大。
核心问题：
1. 延迟不可预测性：现有的基于 FLOPs（浮点运算次数）的延迟估算方法对 ViT 不准确。ViT 的延迟受内存格式、激活函数输入值分布以及 ML 框架底层实现的影响极大。
2. 资源受限：移动设备内存有限（如 iPhone 15 仅 6GB RAM，远低于云端 GPU），且缺乏对 ViT 中某些操作（如 Swin Transformer 中的 roll 操作）的 GPU 支持，导致主要依赖 CPU 推理。
3. 缺乏数据：现有研究多基于云 GPU 训练或单一框架（如 TFLite），缺乏针对移动端多平台、多框架下 ViT 延迟的系统性量化数据。

2. 方法论 (Methodology)

作者采用了一套系统的实验与建模方法：

数据采集：
- 真实模型：收集了 190 个来自 Timm 和 HuggingFace 的真实 ViT 模型，以及 102 个 CNN 模型作为对比。
- 平台覆盖：在 6 种主流移动平台（涵盖 Snapdragon, Exynos, Apple A 系列芯片）上，使用 PyTorch Mobile 和 TensorFlow Lite (TFLite) 两个框架进行部署。
- 变量控制：测试了不同的 CPU 核心组合（大核、中核、小核）、量化（Int8 vs Float32）以及输入分辨率。
合成数据集构建：
- 设计了一个搜索空间，生成了 1000 个合成 ViT 模型。
- 包含代表性构建块：混合架构（SepConv 与 Attention 交替）、不同的归一化层（BatchNorm/LayerNorm）、激活函数（GELU/SiLU）以及不同的内存格式（NCHW/NHWC）。
- 目的是覆盖真实模型中未出现的配置，以训练鲁棒的预测器。
预测模型：
- 训练了三种机器学习模型（Lasso, Random Forest, Gradient Boosted Decision Trees - GBDT）来预测延迟。
- 输入特征包括操作配置（FLOPs, 输入/输出形状, 滤波器大小等）。
- 分别针对卷积、线性层、激活函数等操作训练独立的预测器，最后求和得到端到端延迟。

3. 关键发现与洞察 (Key Findings & Insights)

论文通过对比 ViT 和 CNN，揭示了以下关键性能特征：

延迟与 FLOPs 的脱节：
- 在相同 FLOPs 下，ViT 的推理延迟通常比 CNN 高（例如 5 GFLOPs 的 ViT 延迟是 4.95 GFLOPs CNN 的 1.75 倍）。
- 原因：ViT 的自注意力机制导致计算复杂度为 $O(N^2)$ ，且大量时间消耗在线性变换和矩阵乘法上，而非卷积。
内存瓶颈 (Memory-Bound)：
- ViT 的算术强度（Arithmetic Intensity）低于 CNN，意味着它们更受内存带宽限制，而非计算能力限制。
- 提高内存频率对 ViT 的加速效果（最高 3.4 倍）远大于提高 CPU 频率的效果。
- ViT 的内存消耗随输入分辨率增长的速度快于 CNN。
内存格式的影响：
- 在 PyTorch Mobile 中，卷积操作在 NHWC (通道后) 格式下的延迟显著低于 NCHW (通道前) 格式（平均加速 1.58x - 2.21x）。这是因为底层库 XNNPACK 对 NHWC 有优化，而 NCHW 需要额外的内存拷贝和转置。
激活函数的非线性延迟：
- GELU 激活函数的延迟高度依赖于输入值。由于底层 C 库 (libm) 对 erf 函数的实现根据输入值范围不同而切换近似算法，导致延迟出现不连续的跳变。这使得仅基于 FLOPs 的估算完全失效。
框架差异：
- 量化效果：在 PyTorch Mobile 上，量化后在小核上加速，但在大核上线性层性能反而下降（因为 QNNPACK 库在整数运算上不如 XNNPACK 的浮点 SIMD 指令高效）。
- TFLite vs PyTorch：TFLite 在深度卷积 (DWConv) 上表现更线性且更快，因为其内存格式统一，无需转换；而 PyTorch Mobile 在不同格式间转换带来了额外开销。

4. 主要贡献 (Key Contributions)

系统性量化分析：首次大规模对比了 190 个真实 ViT 和 102 个 CNN 在移动设备上的延迟、内存消耗及瓶颈，揭示了 ViT 在移动端“高延迟、高内存”的特性。
ViT 延迟数据集：发布了一个包含 1000 个合成 ViT 和 190 个真实 ViT 的延迟数据集，覆盖 6 个平台、2 个框架、多种核心组合和数据表示形式。
高精度延迟预测器：
- 证明了基于合成数据训练的简单 ML 预测器（如 GBDT）具有极高的准确性。
- 合成 ViT 预测误差：PyTorch Mobile 上端到端误差约 4.4%，TFLite 上约 4.8%。
- 真实 ViT 预测误差：在未见过的真实模型上，PyTorch Mobile 误差约 8.2%，TFLite 误差约 6.1%。
应用验证：验证了该预测器在 神经架构搜索 (NAS) 和 协同推理 (Split Inference) 场景中的有效性，能够替代昂贵的实际部署测试。

5. 实验结果 (Results)

预测精度：非线性模型（RF, GBDT）远优于线性模型（Lasso），特别是在处理 PyTorch Mobile 中复杂的非线性延迟特征时。GBDT 在大多数场景下将端到端延迟预测误差控制在 10% 以内。
特征重要性：对于卷积操作，FLOPs 是主要特征；但对于 NCHW 格式，输入/输出尺寸（影响内存拷贝成本）变得至关重要。
多核调度：在异构多核（如 1 大核 +2 中核）上，由于线程同步和集群间通信开销，预测误差会略微上升，但整体仍保持可用精度。

6. 意义与未来工作 (Significance & Future Work)

意义：
- 打破了"FLOPs 即延迟”的迷思，为移动端 ViT 的部署提供了科学的评估标准。
- 为开发者提供了工具，可以在不实际部署模型的情况下，快速筛选出满足延迟约束的 ViT 架构。
- 揭示了底层 ML 框架实现细节（如内存格式转换、激活函数近似）对性能的巨大影响，指导了框架优化方向。
局限性：当前研究主要关注 CPU，因为许多 ViT 操作在移动端 GPU 上尚不支持。
未来工作：计划扩展支持 NPU (神经网络处理器) 和 DSP，并研究背景任务（如系统更新、定位服务）对推理延迟的干扰建模。

总结：这篇论文不仅填补了移动端 ViT 性能分析的空白，还通过构建高质量数据集和训练预测模型，为在资源受限的移动设备上高效部署先进的视觉 Transformer 模型提供了关键的理论依据和实用工具。

A Study on Inference Latency for Vision Transformers on Mobile Devices

1. 背景：为什么我们要关心这个？

2. 研究发现：为什么 ViT 在手机上这么“难搞”？

3. 作者做了什么？（造了一个“模拟器”）

4. 这个数据库有什么用？（预测未来的速度）

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键发现与洞察 (Key Findings & Insights)

4. 主要贡献 (Key Contributions)

5. 实验结果 (Results)

6. 意义与未来工作 (Significance & Future Work)

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank