Each language version is independently generated for its own context, not a direct translation.
想象一下,你有一个非常聪明但体型极小的机器人(就像门铃上的智能摄像头),它需要解决一个复杂的谜题,例如识别人脸。问题在于,这个机器人体积小、电池微小、算力有限。如果你让它独自解决整个谜题,要么耗时极长,要么可能在完成前就耗尽电量。
本文探讨了一种巧妙的变通方法,称为分割学习(Split Learning)。与其让这个小机器人包揽所有工作,不如将任务一分为二。小机器人完成谜题中简单的前半部分,然后将其发现的“线索”发送给附近更大、更强的机器人(例如智能音箱或本地服务器)。大机器人完成谜题中困难的后半部分,并将答案喊回。
本文作者旨在找出利用真实低功耗硬件(具体为 ESP32-S3 开发板,这是一种廉价、开源的微控制器)进行这种“喊话与聆听”游戏的最快方式。
以下是他们研究发现的简要说明,辅以简单的类比:
1. “喊话”问题:选择合适的协议
当小机器人将线索发送给大机器人时,它必须选择一种“语言”或“传输方式”来发送数据。研究人员测试了四种不同的方法,就像在不同类型的邮政服务之间进行选择:
- UDP:就像寄明信片。它非常快,因为你不需要等待回执,但如果卡片丢失,你便无从知晓。
- TCP:就像寄挂号信。它非常可靠(你会收到回执),但由于发送信件前需要处理大量的“握手”手续,因此耗时更长。
- BLE(蓝牙):就像一部缓慢且话多的对讲机。它连接良好,但建立对话需要很长时间,且数据以非常小且碎片化的块发送。
- ESP-NOW:就像一部专用的、高速的对讲机,无需先建立正式连接。它直接将消息广播出去。
获胜者:令人惊讶的是,ESP-NOW 整体速度最快。尽管它有较小的“信封”大小限制(无法一次性携带巨大的数据块),但它通过跳过正式的连接设置节省了如此多的时间,从而超越了其他选项。它完成往返(发送线索并收到答案)大约需要 3.6 秒,而蓝牙则耗时超过 10 秒。
2. “切割”问题:在哪里分割任务?
研究人员还必须决定确切在哪里切割谜题。
- 切割过早:小机器人几乎不做任何工作,但它必须向大机器人发送一大堆线索。这会堵塞网络。
- 切割过晚:小机器人几乎完成了所有工作,这对于它弱小的算力来说耗时太长。
他们在两个流行的 AI 模型(MobileNet-V2 和 ResNet50)中测试了不同的“切割点”。他们发现,最佳的切割位置取决于模型和网络,但总体而言,他们希望找到“金发姑娘”区域,即小机器人完成足够的工作,同时又不会使网络不堪重负。
3. “智能规划师”:束搜索(Beam Search)
寻找完美的切割点,就像试图在迷宫中找到最佳路线。
- 暴力搜索:尝试每一条可能的路径。这能保证找到最佳路线,但计算起来耗时极长(需要数天)。
- 贪婪搜索:选择第一条看起来不错的路径。它很快,但你可能会在后来陷入死胡同。
- 束搜索(获胜者):想象你在探索迷宫,但不是检查每一条路径,而是在任何给定时刻只保留前 3 条最有希望的路径。如果某条路径看起来不好,你就放弃它;如果某条路径看起来不错,你就保留它并继续探索。
研究人员利用这种束搜索方法创建了一种算法。
- 结果:它几乎瞬间(对于一组 5 个设备,大约 0.1 秒)就找到了一条近乎完美的路线。
- 意义:它足够快,可用于实时系统,而“暴力搜索”方法计算同样的内容则需要数小时甚至数天。
“食谱”总结
本文最后总结了一个让这些小型物联网设备高效协同工作的简单“食谱”:
- 使用 ESP-NOW 进行通信,因为它跳过了无聊的设置步骤,且往返速度最快。
- 使用束搜索算法 自动决定在哪里分割 AI 模型。这确保了小机器人和大机器人以最节省时间的方式分担工作。
通过将正确的“喊话方法”(ESP-NOW)与智能的“规划师”(束搜索)相结合,他们成功让这些小型低功耗设备比以前更快地解决复杂的 AI 谜题,而无需升级硬件。
Each language version is independently generated for its own context, not a direct translation.
技术摘要:优化基于 TinyML 的物联网系统中的分割学习延迟
问题陈述
人工智能的快速发展在将深度学习(DL)推理部署到超低功耗、资源受限的边缘和物联网设备上时,面临着一个重大瓶颈。虽然 TinyML 通过轻量级模型提供了解决方案,但许多应用仍超出了单个微控制器的内存和处理能力。分割学习(SL)通过将模型分割到多个设备上来解决这一问题,在传感器上执行早期层,并将剩余部分卸载到配套设备上。然而,SL 在此背景下的性能仍未得到充分探索。具体而言,目前缺乏以下方面的实证证据:
- 在现实的低功耗无线协议下,受限硬件上 SL 的端到端推理延迟。
- 不同无线通信协议(WiFi、ESP-NOW、BLE)对分割延迟的影响,包括网络建立、中间激活值的传输以及预测反馈。
- 在综合考虑计算和通信开销的情况下,选择“分割点”(模型分割位置)以最小化总延迟的最优方案。
现有研究主要集中在智能手机或单板计算机上,通常假设理想的传输条件,或使用未考虑协议特定开销(如丢包或连接握手)的启发式分割选择方法。
方法论
作者提出了一个实验框架和优化算法来解决这些空白。
1. 实验测试平台
- 硬件:系统使用 ESP32-S3-WROOM-1 开发板(240 MHz,16 MB 闪存)作为物联网节点,使用台式 PC(Intel Core i9-14900)作为边缘服务器。
- 模型:使用了两个卷积神经网络(CNN):MobileNet-V2(轻量级)和 ResNet50(较大)。
- 框架:模型在边缘服务器上使用 TensorFlow Lite (TFLite) 进行准备、分割和量化。固件通过空中下载(OTA)更新部署到物联网设备。
- 协议比较:对四种无线通信协议进行了基准测试,用于传输中间激活值:
- UDP(通过 WiFi)
- TCP(通过 WiFi)
- ESP-NOW(低功耗、点对点)
- BLE(蓝牙低功耗)
- 测量:使用 ESP32-S3 上的高分辨率计时器测量延迟,捕获往返时间(RTT)组件,包括协议建立、模型加载、张量分配、推理、缓冲、传输和反馈。
2. 优化框架
本文将分割点选择表述为一个优化问题,旨在最小化总推理延迟(Tinference),其定义为设备本地处理延迟(Td)与传输延迟(Ttr)之和。
- 传输模型:传输延迟考虑了数据包大小、最大传输单元(MTU)限制、传播延迟和丢包概率。
- 搜索算法:为了解决优化问题(寻找最优分割点集 s∗),作者比较了四种策略:
- 暴力搜索:穷举搜索(对于较大的 L,计算上不可行)。
- 随机适配:随机选择分割点。
- 首次适配:选择第一个满足延迟阈值的分割点。
- 贪婪搜索:顺序选择分割点以最小化当前段的即时成本。
- 束搜索:针对此上下文的一种新方法,在每一步仅扩展前 B 个最有希望的局部解,在搜索精度与计算效率之间取得平衡。
关键结果
协议性能
- ESP-NOW:在双设备设置中实现了最佳的总体往返时间(RTT),为3.6 秒。尽管其数据包限制(250 字节)小于 UDP/TCP,但由于缺乏连接握手开销且 MAC 层广播机制高效,其总延迟最低。
- UDP:由于较大的 MTU(1472 字节)且无确认开销,提供了最低的原始传输延迟(例如,小负载为 1.4 毫秒)。然而,协议建立时间显著(>2 秒)。
- TCP:由于连接建立和重传开销,导致高延迟,特别是在处理大型中间激活张量(例如 >100 个数据包)时,导致 ESP32 上的缓冲区停滞。
- BLE:由于过度的分片(512 字节 MTU)以及高建立/反馈延迟,导致延迟最高(10.4 秒 RTT)。
分割点优化
- 算法效率:束搜索算法表现出接近暴力的最优延迟性能,但处理时间大幅减少。对于 5 个设备的场景,束搜索仅需0.1 秒的处理时间,而暴力搜索所需时间将呈指数级增长(预计 6 个设备约为 7857 秒)。
- 延迟降低:对于 6 个设备,束搜索将延迟降低了 600% 以上(相较于随机适配)。
- 模型特异性:
- 对于MobileNet-V2,束搜索在不同设备数量下始终实现了最低延迟。
- 对于ResNet50,虽然束搜索仍然是最高效的,但在设备数量较多时观察到延迟波动,原因是某些节点缺乏运行特定模型段的容量。
关于分割点的具体发现
手动基准测试确定,在使用 ESP-NOW 时,MobileNet-V2 中的 block_16_project_BN 层是一个高效的分割点,能有效平衡计算负载和数据传输大小。
意义与主张
本文声称提供了基于 TinyML 的分割学习在低功耗 ESP32-S3 开发板上的首个实验延迟基准。其主要贡献如下:
- 实证证据:通过提供不同无线协议下 SL 延迟的真实世界测量,填补了文献空白,超越了理论模拟或基于智能手机的研究。
- 协议选择:确立了虽然 UDP 提供低传输延迟,但在受限的物联网环境中,由于可忽略的建立开销,ESP-NOW是端到端 SL 往返时间的更优协议。
- 优化算法:引入并验证了一种基于束搜索的自动分割点选择算法。作者声称,与穷举搜索方法不同,该方法为实时部署提供了一种实用且可扩展的解决方案,以最小的计算成本提供接近最优的延迟。
- 可复现性:源代码和实验设置已公开,旨在作为未来 TinyML 和分割学习研究的可复现基准。
作者总结道,虽然他们目前的工作侧重于静态分割点和固定协议,但未来的工作旨在开发一个动态框架,能够根据网络条件和设备资源,实时调整分割点、数据块大小和协议。