Each language version is independently generated for its own context, not a direct translation.

想象一下，你有一个非常聪明但体型极小的机器人（就像门铃上的智能摄像头），它需要解决一个复杂的谜题，例如识别人脸。问题在于，这个机器人体积小、电池微小、算力有限。如果你让它独自解决整个谜题，要么耗时极长，要么可能在完成前就耗尽电量。

本文探讨了一种巧妙的变通方法，称为分割学习（Split Learning）。与其让这个小机器人包揽所有工作，不如将任务一分为二。小机器人完成谜题中简单的前半部分，然后将其发现的“线索”发送给附近更大、更强的机器人（例如智能音箱或本地服务器）。大机器人完成谜题中困难的后半部分，并将答案喊回。

本文作者旨在找出利用真实低功耗硬件（具体为 ESP32-S3 开发板，这是一种廉价、开源的微控制器）进行这种“喊话与聆听”游戏的最快方式。

以下是他们研究发现的简要说明，辅以简单的类比：

1. “喊话”问题：选择合适的协议

当小机器人将线索发送给大机器人时，它必须选择一种“语言”或“传输方式”来发送数据。研究人员测试了四种不同的方法，就像在不同类型的邮政服务之间进行选择：

UDP：就像寄明信片。它非常快，因为你不需要等待回执，但如果卡片丢失，你便无从知晓。
TCP：就像寄挂号信。它非常可靠（你会收到回执），但由于发送信件前需要处理大量的“握手”手续，因此耗时更长。
BLE（蓝牙）：就像一部缓慢且话多的对讲机。它连接良好，但建立对话需要很长时间，且数据以非常小且碎片化的块发送。
ESP-NOW：就像一部专用的、高速的对讲机，无需先建立正式连接。它直接将消息广播出去。

获胜者：令人惊讶的是，ESP-NOW 整体速度最快。尽管它有较小的“信封”大小限制（无法一次性携带巨大的数据块），但它通过跳过正式的连接设置节省了如此多的时间，从而超越了其他选项。它完成往返（发送线索并收到答案）大约需要 3.6 秒，而蓝牙则耗时超过 10 秒。

2. “切割”问题：在哪里分割任务？

研究人员还必须决定确切在哪里切割谜题。

切割过早：小机器人几乎不做任何工作，但它必须向大机器人发送一大堆线索。这会堵塞网络。
切割过晚：小机器人几乎完成了所有工作，这对于它弱小的算力来说耗时太长。

他们在两个流行的 AI 模型（MobileNet-V2 和 ResNet50）中测试了不同的“切割点”。他们发现，最佳的切割位置取决于模型和网络，但总体而言，他们希望找到“金发姑娘”区域，即小机器人完成足够的工作，同时又不会使网络不堪重负。

3. “智能规划师”：束搜索（Beam Search）

寻找完美的切割点，就像试图在迷宫中找到最佳路线。

暴力搜索：尝试每一条可能的路径。这能保证找到最佳路线，但计算起来耗时极长（需要数天）。
贪婪搜索：选择第一条看起来不错的路径。它很快，但你可能会在后来陷入死胡同。
束搜索（获胜者）：想象你在探索迷宫，但不是检查每一条路径，而是在任何给定时刻只保留前 3 条最有希望的路径。如果某条路径看起来不好，你就放弃它；如果某条路径看起来不错，你就保留它并继续探索。

研究人员利用这种束搜索方法创建了一种算法。

结果：它几乎瞬间（对于一组 5 个设备，大约 0.1 秒）就找到了一条近乎完美的路线。
意义：它足够快，可用于实时系统，而“暴力搜索”方法计算同样的内容则需要数小时甚至数天。

“食谱”总结

本文最后总结了一个让这些小型物联网设备高效协同工作的简单“食谱”：

使用 ESP-NOW 进行通信，因为它跳过了无聊的设置步骤，且往返速度最快。
使用束搜索算法 自动决定在哪里分割 AI 模型。这确保了小机器人和大机器人以最节省时间的方式分担工作。

通过将正确的“喊话方法”（ESP-NOW）与智能的“规划师”（束搜索）相结合，他们成功让这些小型低功耗设备比以前更快地解决复杂的 AI 谜题，而无需升级硬件。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：优化基于 TinyML 的物联网系统中的分割学习延迟

问题陈述

人工智能的快速发展在将深度学习（DL）推理部署到超低功耗、资源受限的边缘和物联网设备上时，面临着一个重大瓶颈。虽然 TinyML 通过轻量级模型提供了解决方案，但许多应用仍超出了单个微控制器的内存和处理能力。分割学习（SL）通过将模型分割到多个设备上来解决这一问题，在传感器上执行早期层，并将剩余部分卸载到配套设备上。然而，SL 在此背景下的性能仍未得到充分探索。具体而言，目前缺乏以下方面的实证证据：

在现实的低功耗无线协议下，受限硬件上 SL 的端到端推理延迟。
不同无线通信协议（WiFi、ESP-NOW、BLE）对分割延迟的影响，包括网络建立、中间激活值的传输以及预测反馈。
在综合考虑计算和通信开销的情况下，选择“分割点”（模型分割位置）以最小化总延迟的最优方案。

现有研究主要集中在智能手机或单板计算机上，通常假设理想的传输条件，或使用未考虑协议特定开销（如丢包或连接握手）的启发式分割选择方法。

方法论

作者提出了一个实验框架和优化算法来解决这些空白。

1. 实验测试平台

硬件：系统使用 ESP32-S3-WROOM-1 开发板（240 MHz，16 MB 闪存）作为物联网节点，使用台式 PC（Intel Core i9-14900）作为边缘服务器。
模型：使用了两个卷积神经网络（CNN）：MobileNet-V2（轻量级）和 ResNet50（较大）。
框架：模型在边缘服务器上使用 TensorFlow Lite (TFLite) 进行准备、分割和量化。固件通过空中下载（OTA）更新部署到物联网设备。
协议比较：对四种无线通信协议进行了基准测试，用于传输中间激活值：
- UDP（通过 WiFi）
- TCP（通过 WiFi）
- ESP-NOW（低功耗、点对点）
- BLE（蓝牙低功耗）
测量：使用 ESP32-S3 上的高分辨率计时器测量延迟，捕获往返时间（RTT）组件，包括协议建立、模型加载、张量分配、推理、缓冲、传输和反馈。

2. 优化框架

本文将分割点选择表述为一个优化问题，旨在最小化总推理延迟（ $T_{inference}$ ），其定义为设备本地处理延迟（ $T_d$ ）与传输延迟（ $T_{tr}$ ）之和。

传输模型：传输延迟考虑了数据包大小、最大传输单元（MTU）限制、传播延迟和丢包概率。
搜索算法：为了解决优化问题（寻找最优分割点集 $s^*$ $s^{*}$ ），作者比较了四种策略：
1. 暴力搜索：穷举搜索（对于较大的 $L$ ，计算上不可行）。
2. 随机适配：随机选择分割点。
3. 首次适配：选择第一个满足延迟阈值的分割点。
4. 贪婪搜索：顺序选择分割点以最小化当前段的即时成本。
5. 束搜索：针对此上下文的一种新方法，在每一步仅扩展前 $B$ 个最有希望的局部解，在搜索精度与计算效率之间取得平衡。

关键结果

协议性能

ESP-NOW：在双设备设置中实现了最佳的总体往返时间（RTT），为3.6 秒。尽管其数据包限制（250 字节）小于 UDP/TCP，但由于缺乏连接握手开销且 MAC 层广播机制高效，其总延迟最低。
UDP：由于较大的 MTU（1472 字节）且无确认开销，提供了最低的原始传输延迟（例如，小负载为 1.4 毫秒）。然而，协议建立时间显著（>2 秒）。
TCP：由于连接建立和重传开销，导致高延迟，特别是在处理大型中间激活张量（例如 >100 个数据包）时，导致 ESP32 上的缓冲区停滞。
BLE：由于过度的分片（512 字节 MTU）以及高建立/反馈延迟，导致延迟最高（10.4 秒 RTT）。

分割点优化

算法效率：束搜索算法表现出接近暴力的最优延迟性能，但处理时间大幅减少。对于 5 个设备的场景，束搜索仅需0.1 秒的处理时间，而暴力搜索所需时间将呈指数级增长（预计 6 个设备约为 7857 秒）。
延迟降低：对于 6 个设备，束搜索将延迟降低了 600% 以上（相较于随机适配）。
模型特异性：
- 对于MobileNet-V2，束搜索在不同设备数量下始终实现了最低延迟。
- 对于ResNet50，虽然束搜索仍然是最高效的，但在设备数量较多时观察到延迟波动，原因是某些节点缺乏运行特定模型段的容量。

关于分割点的具体发现

手动基准测试确定，在使用 ESP-NOW 时，MobileNet-V2 中的 block_16_project_BN 层是一个高效的分割点，能有效平衡计算负载和数据传输大小。

意义与主张

本文声称提供了基于 TinyML 的分割学习在低功耗 ESP32-S3 开发板上的首个实验延迟基准。其主要贡献如下：

实证证据：通过提供不同无线协议下 SL 延迟的真实世界测量，填补了文献空白，超越了理论模拟或基于智能手机的研究。
协议选择：确立了虽然 UDP 提供低传输延迟，但在受限的物联网环境中，由于可忽略的建立开销，ESP-NOW是端到端 SL 往返时间的更优协议。
优化算法：引入并验证了一种基于束搜索的自动分割点选择算法。作者声称，与穷举搜索方法不同，该方法为实时部署提供了一种实用且可扩展的解决方案，以最小的计算成本提供接近最优的延迟。
可复现性：源代码和实验设置已公开，旨在作为未来 TinyML 和分割学习研究的可复现基准。

作者总结道，虽然他们目前的工作侧重于静态分割点和固定协议，但未来的工作旨在开发一个动态框架，能够根据网络条件和设备资源，实时调整分割点、数据块大小和协议。

Optimizing Split Learning Latency in TinyML-Based IoT Systems