Benchmarking Deep Learning Models for Object Detection on Edge Computing… — 通俗解释

✨

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在为一家小商店搭建一套安防摄像头系统，但你无法将其连接到庞大且昂贵的云服务器。相反，你需要摄像头利用一台微小的、电池供电的计算机，在现场“思考”并识别入侵者。这就是边缘计算的世界：在本地完成繁重的计算任务，而不是将数据发送到云端。

这篇论文就像是一篇微型计算机的“汽车评测”，只不过作者测试的不是它们的行驶速度，而是它们使用不同类型的 AI 软件“看”和识别物体（如人、车或动物）的能力。

以下是他们实验的通俗拆解：

竞争者：“大脑”（AI 模型）

研究人员测试了三类不同的 AI“大脑”，它们专为识别物体而设计。可以将它们想象成不同类型的侦探：

YOLOv8（You Only Look Once，即“你只看一次”）： 这些是高绩效侦探。
- “中等”版本： 一位资深侦探，极其准确，但思考时间长，且很快会感到疲惫（消耗大量电池）。
- “纳米”和“小型”版本： 初级侦探，速度更快，能耗更低，但可能会遗漏一些细节。
SSD（Single Shot Detector，单次检测器）： 这些是短跑运动员。
- 它们速度极快且能耗极低，但在识别棘手或微小物体方面表现不佳。它们就像一名进行快速巡逻的保安，但可能会漏掉狡猾的小偷。
EfficientDet Lite： 这些是平衡型侦探。它们试图在速度和准确性之间找到中间地带。

赛道：“肌肉”（边缘设备）

作者将这些侦探在不同的微型计算机上进行了测试，这些计算机充当了“大脑”的躯体：

树莓派（Raspberry Pi，型号 3、4 和 5）： 它们是计算界的“瑞士军刀”。它们便宜、小巧且广受欢迎。作者既测试了它们独立运行的情况，也测试了它们连接特殊 USB 棒（称为TPU）的情况，该 USB 棒充当涡轮增压器，帮助它们思考得更快。
NVIDIA Jetson Orin Nano： 这是团队中的“跑车”。它更昂贵、更强大，专为繁重的 AI 任务而设计。

比赛结果：速度、电池和准确性

研究人员进行了一场马拉松式的测试，要求每台计算机在数千张照片中识别物体。他们测量了三项指标：

识别物体所需的时间（推理时间）。
每张照片消耗的电量（能耗）。
实际正确识别出的物体数量（准确性/mAP）。

以下是他们的发现：

“快速且节俭”的冠军： SSD 模型在速度和电池寿命方面是明确的赢家。它们就像一名吃得很少且跑得快的马拉松选手，但它们并非最擅长识别每一个细节。
“准确但耗能”的冠军： YOLOv8 中等 模型是最准确的侦探，正确识别出的物体最多。然而，它速度慢且消耗大量电池，就像一辆油耗很高的豪华车。
“涡轮增压器”效应： 当他们在树莓派上添加 TPU 加速器（USB 棒）时，就像给自行车装上了喷气发动机。
- 对于 SSD 和 EfficientDet 模型，TPU 使它们变得极其快速且高效，同时没有损害其准确性。
- 然而，对于 YOLOv8 模型，TPU 迫使它们缩小“大脑”（压缩模型）以适应。这使它们变得更快，但准确性降低了，就像一位资深侦探为了跑得更快而被迫戴上眼罩。
“跑车”冠军： Jetson Orin Nano 是总冠军。对于重型 YOLOv8 模型，它是最快且最节能的。它能够处理庞大且准确的模型，而不会导致速度减慢或电池过快耗尽。

核心启示

没有单一的“完美”选择。这取决于你的需求：

如果你需要最大的速度和电池寿命（例如需要飞行数小时的无人机），你应该选择 带有 TPU 的树莓派 上的 SSD 模型。
如果你需要最高的准确性（例如必须看到每个行人的自动驾驶汽车），并且拥有强大的设备，那么运行 YOLOv8 的 Jetson Orin Nano 是最佳选择。
如果你预算有限且需要平衡，那么搭载 EfficientDet 的 树莓派 4 或 5 是一个稳固的中间选择。

简而言之，这篇论文告诉我们，构建智能的本地 AI 是一项平衡艺术。你必须在计算机的速度、它能节省的电量以及它需要具备的聪明程度之间做出选择。天下没有免费的午餐，但了解这些权衡有助于你为特定的工作构建正确的系统。

Each language version is independently generated for its own context, not a direct translation.

以下是论文《在边缘计算设备上对深度学习目标检测模型进行基准测试》的详细技术总结。

1. 问题陈述

现代应用，特别是自动驾驶车辆和实时监控系统，需要在资源受限的边缘设备上部署深度学习目标检测算法。虽然云计算提供高性能，但会引入延迟和依赖性问题。边缘计算解决了这些问题，但也带来了重大挑战：

资源限制：边缘设备（如 Raspberry Pi、Jetson）的 CPU/GPU 算力、内存和电池寿命有限。
权衡困境：目前缺乏对不同模型和硬件配置下精度（mAP）、推理速度（延迟）与能效之间权衡关系的全面理解。
文献缺口：现有研究往往专注于特定模型，或缺乏在广泛现代模型（如 YOLOv8）和多样化硬件（包括 TPUs 和新型 Jetson 模块）上对能耗、推理时间和精度的同步评估。

2. 方法论

实验设置

作者进行了一项全面的基准测试研究，涉及：

边缘设备：
- Raspberry Pi 系列：Pi 3 Model B+、Pi 4 Model B 和 Pi 5。
- 加速器：连接到 Pi 设备的 Google Coral USB 加速器（Edge TPU）。
- 高性能边缘：NVIDIA Jetson Orin Nano（4 GB RAM）。
目标检测模型：
- YOLOv8：Nano、Small 和 Medium 变体。
- EfficientDet Lite：Lite0、Lite1 和 Lite2。
- SSD：SSD MobileNet V1 和 SSDLite MobileDet。
框架与部署：
- PyTorch：用于在 Pi 设备上原生部署 YOLOv8。
- TensorFlow Lite (TFLite)：用于在配备 TPU 的 Pi 设备上运行模型（模型输入分辨率从 640x640 压缩至 320x320 以符合 TPU 限制）。
- TensorRT：用于优化 Jetson Orin Nano 上的模型。
- Web 服务：模型被部署为 Flask-API Web 服务，以模拟现实世界的请求处理。

评估指标

该研究测量了三个关键指标：

推理时间：处理图像所需的时间（不包括预处理/后处理），以毫秒为单位测量。
能耗：计算为每次请求的能耗（不包括基础能耗）。
- 公式： $E_{excR} = \frac{TE - BE}{NR}$
- 其中 $TE $为总能耗，$ BE $为基础能耗（空闲状态），$ NR$ 为请求数量。
精度：使用 FiftyOne 工具在 COCO 验证数据集（5,000 张图像）上评估的平均精度均值（mAP）。

自动化

Locust：用于在 5 分钟的时间间隔内生成自动化的、顺序的 HTTP 请求至 API 端点，以测量吞吐量和能耗。
功率计：使用带有蓝牙连接功能的 UM25C USB 功率计测量实时能耗。

3. 主要贡献

全面基准测试：在多样化硬件（Pi 3/4/5、TPUs、Jetson Orin Nano）上对最先进模型（YOLOv8、EfficientDet Lite、SSD）进行了独特的评估。
综合指标：同时测量精度、延迟和能效（每次请求），提供多维度的性能视图。
框架优化：展示了不同部署框架（PyTorch、TFLite、TensorRT）以及 TPU 硬件上输入分辨率压缩的影响。
实践指导：为从业者提供了基于特定应用约束（如电池寿命与实时速度）选择最佳模型 - 设备组合的可操作见解。

4. 主要结果

能耗

最高效：SSD MobileNet V1 在所有设备上始终表现出最低的每次请求能耗。
最低效：YOLOv8 Medium 的能耗最高。
设备性能：
- Jetson Orin Nano 是处理请求时最节能的设备，尽管其空闲功耗最高。
- TPU 影响：添加 TPU 降低了所有模型的每次请求能耗，但增加了设备的基础空闲能耗（根据 Pi 型号不同，增加了 9% 至 46%）。
- 代际差距：Pi 4 和 Pi 5 比 Pi 3 更节能。

推理时间（速度）

最快模型：SSD MobileNet V1 是所有平台上最快的模型。
最慢模型：YOLOv8 Medium 始终是最慢的。
硬件加速：
- TPUs：显著降低了推理时间（例如，Pi 3+TPU 上的 SSD_v1 从 427ms 降至 61ms）。
- Jetson Orin Nano：实现了最低的绝对推理时间（例如，YOLOv8 Nano 为 16ms），性能甚至优于 TPU 加速的 Pi 设备。

精度（mAP）

最高精度：YOLOv8 Medium 在标准 Pi 设备上实现了最高的 mAP（44）。
最低精度：SSD MobileNet V1 的 mAP 最低（19）。
TPU 对精度的影响：
- EfficientDet 和 SSD：在 TPU 上部署时精度保持稳定。
- YOLOv8：在配备 TPU 的 Pi 设备上精度显著下降（例如，YOLOv8 Nano 从 31 mAP 降至 16 mAP），这是由于所需的模型压缩（将输入分辨率从 640x640 降低至 320x320）所致。
Jetson 影响：Jetson Orin Nano 保持了 YOLOv8 的高精度，但与 Pi 设备相比，SSD 和 EfficientDet 模型的 mAP 略有下降。

权衡分析（帕累托前沿）

SSD 模型：能耗与时间之间呈现线性相关性。Jetson Orin Nano 和 Pi 5+TPU 构成了“帕累托前沿”（最佳平衡点）。
YOLOv8：Jetson Orin Nano 成为更优选择，提供了速度、能耗和精度的最佳平衡，且没有 TPU 上出现的精度损失。

5. 意义与结论

论文结论指出，不存在单一的“最佳”配置；选择取决于具体的应用需求：

追求最高精度：在 Jetson Orin Nano 上运行 YOLOv8 Medium 是最佳选择。
追求最高速度/能效：首选在 Jetson Orin Nano 或 带 TPU 的 Pi 5 上运行 SSD MobileNet V1。
关键洞察：虽然边缘 TPU 极大地提高了速度并降低了每次请求的能耗，但由于输入分辨率的限制，它们可能会严重降低复杂模型（如 YOLOv8）的精度。因此，对于高精度的 YOLOv8 部署，基于 GPU 的边缘设备（Jetson）优于基于 TPU 的设置。

本研究为开发边缘 AI 解决方案的研究人员和工程师提供了重要参考，强调了平衡硬件能力、模型架构和部署框架以满足现实世界约束的必要性。

Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices