MEC Task Offloading in AIoT: A User-Centric DRL Model Splitting Inference Scheme

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要讲的是：在万物互联（AIoT）的时代，我们的智能设备（比如智能手表、自动驾驶汽车、监控摄像头）越来越聪明，但它们自己“脑子”不够用，电池也不够大。这时候，就需要把任务交给附近的“边缘服务器”（可以理解为社区里的超级电脑）来处理。

但是，如果大家都把任务扔给服务器，服务器会“累死”（资源不够），或者因为排队太久导致任务超时。这就好比早高峰时，所有人都挤向同一个地铁站，结果谁也走不了。

这篇论文提出了一套**“智能调度方案”，用一种叫“深度强化学习”**（DRL）的 AI 技术，让设备和服务器能像有默契的搭档一样，自动决定“谁做什么”、“怎么做最快”、“怎么做最省电”。

下面我用几个生活中的比喻来拆解这个方案：

1. 核心问题：拥挤的“外卖站”

想象一下，你（用户设备）点了一份外卖（计算任务）。

传统做法：你不管距离远近，直接叫离你最近的那个外卖员（服务器）。结果那个外卖员手里已经拿了 100 单，你的外卖要等很久，甚至因为超时被退单。
论文的问题：现在的服务器不仅算力（干活的速度）有限，存储空间（放外卖的冰箱）也有限。如果只考虑速度，不考虑冰箱够不够大，系统就会崩溃。

2. 解决方案：一套“双管齐下”的聪明策略

作者提出了一个叫 UCMS 的方案，包含两个关键步骤：

第一步：聪明的“选搭档” (用户 - 服务器协同选择)

在正式干活前，先别急着把任务扔出去。

比喻：就像你去餐厅吃饭，不能只看哪家离得近。你要看哪家厨师（服务器）现在不忙，而且冰箱（存储）里还有空位放你的菜。
怎么做：论文设计了一个算法，让你和服务器互相“看对眼”。
- 你说：“我想找干活快、省电的。”
- 服务器说：“我想接那些容易做、不占我冰箱空间的单子。”
- 双方通过一个**“协同选择算法”**，快速匹配到最合适的搭档，避免大家都挤在同一个服务器门口。

第二步：分阶段的“决策接力” (模型拆分推理)

这是这篇论文最创新的地方。传统的 AI 要么全由你决定，要么全由服务器决定。作者把决定权拆分了，像接力赛一样：

第一棒（用户端预决策）：
- 比喻：你作为顾客，先根据自己的情况（电量、任务急不急）写一张“建议单”。比如：“我觉得这个任务应该交给服务器 A，并且建议用 50% 的电量去跑。”
- 这时候，你只负责提出初步想法（连续动作，比如分配多少电量）。
第二棒（服务器端最终拍板）：
- 比喻：服务器收到你的“建议单”后，看看自己现在的冰箱满不满、厨师忙不忙。
- 如果服务器说：“好，你的建议不错，我批准了！”（批准任务）。
- 如果服务器说：“不行，我冰箱满了，你要么自己在家做，要么换个服务器。”（拒绝或修改）。
- 服务器负责最终确认（离散动作，比如“做”或“不做”）。

为什么要这样拆分？
这就好比**“先问意见，再拍板”**。既利用了你对自己情况的了解，又利用了服务器对全局资源的掌控。这样既避免了服务器过载，又保证了任务不被浪费。

3. 训练方法：像“打游戏”一样变强 (DRL)

为了让这套系统越来越聪明，作者用了深度强化学习（DRL）。

比喻：这就像训练一个游戏玩家。
- 状态：玩家看到当前的局面（电量多少、任务多急、服务器忙不忙）。
- 动作：玩家决定下一步怎么做（选哪个服务器、用多少电）。
- 奖励/惩罚：
  - 如果任务做得快且省电，系统给奖励（加分）。
  - 如果任务超时了，或者把电池用光了，系统给惩罚（扣分）。
- 优先回放机制（Reward-Error Trade-off）：
  - 普通的训练是随机复习错题。
  - 这篇论文说：我们要重点复习那些“既重要又容易出错”的题。如果某次操作虽然得分了，但离满分还差很远（误差大），或者虽然得分低但很有启发，我们就多练几次。这样学得更快，不容易钻牛角尖。

4. 结果：真的好用吗？

作者做了很多模拟实验，把他们的方案和其他几种老方法（比如“谁快选谁”、“谁急选谁”）做对比。

结果：他们的方案在任务完成速度、省电程度以及任务不超时方面，都表现得最好。
特别之处：即使服务器很多、用户很多，或者服务器冰箱（存储）很小，这个方案依然能保持高效，不会像其他方法那样容易“卡死”。

总结

这篇论文就像是为未来的智能城市设计了一套**“智能交通指挥系统”**：

不盲目：不是谁快就选谁，而是看整体路况（资源约束）。
有分工：司机（用户）先提建议，交警（服务器）看全局后做最终决定。
越练越精：通过不断的“试错 - 奖励”循环，系统能自动学会在复杂环境下如何最快地把任务送达到目的地。

这套方案让 AIoT 设备在资源有限的情况下，也能像拥有超级大脑一样，高效、省电地完成任务。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《MEC Task Offloading in AIoT: A User-Centric DRL Model Splitting Inference Scheme》（AIoT 中的 MEC 任务卸载：一种以用户为中心的 DRL 模型拆分推理方案）的详细技术总结。

1. 研究背景与问题 (Problem)

随着人工智能物联网（AIoT）的快速发展，移动边缘计算（MEC）成为支撑其应用的关键技术。然而，在动态 MEC 环境中，现有的任务卸载方案面临以下核心挑战：

多维资源约束复杂：系统需同时处理通信资源、计算资源（用户端和服务器端）以及存储资源（服务器端）的限制。现有研究往往忽略服务器存储限制，假设其为理想状态，导致在实际高负载场景下适用性差。
混合动作空间难题：任务卸载涉及离散决策（是否卸载、选择哪个服务器）和连续决策（本地计算频率、传输功率分配）。现有的深度强化学习（DRL）算法（如 DQN 或 DDPG）在处理这种混合动作空间时表现不佳，难以在大规模动态环境中实现联合优化。
多用户与多服务器竞争：在多个用户和多台边缘服务器重叠覆盖的区域，用户与服务器之间存在激烈的资源竞争。传统的随机选择或单一指标优化（如仅考虑延迟）容易导致服务器过载或资源浪费。
动态环境适应性：现有算法在动态变化的信道、任务到达和电池能量约束下，难以兼顾长期系统收益与短期服务质量。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了一种以用户为中心的模型拆分推理方案（UCMS），并设计了基于UCMS_MADDPG的卸载算法。

2.1 系统模型与问题建模

场景：包含 $N$ 个用户设备（UD）和 $M$ 个边缘服务器（ES），服务区域重叠。
约束：考虑了通信带宽、用户计算能力、用户电池能量（含能量收集）、服务器计算能力、服务器存储容量以及任务时延限制。
目标：最小化加权后的任务时延与能量消耗之和。
问题分解：原始的非凸混合整数规划（MIP）问题被解耦为两个子问题：
1. 用户 - 服务器关联问题：决定用户连接哪个服务器。
2. 任务卸载与资源分配问题：决定卸载与否、本地计算频率及传输功率。

2.2 核心算法设计

A. 用户 - 服务器协同选择算法 (User-Server Co-selection Algorithm)

不同于传统仅基于信道增益的选择，该算法引入双向选择机制。
用户侧：根据传输速率、执行延迟和可用资源计算选择函数，倾向于选择能带来更低成本的服务器。
服务器侧：根据任务大小和当前负载计算选择函数，倾向于接纳能更快处理的任务。
机制：通过迭代匹配，在满足服务器最大用户容量和存储限制的前提下，实现用户与服务器的最优匹配，为后续 DRL 提供高质量的初始化状态。

B. 以用户为中心的模型拆分推理 (User-Centric Model Splitting Inference)

这是本文的核心创新点，将决策过程分为两个阶段（类似模型推理的拆分）：
1. 第一阶段（用户侧预决策）：用户设备（UD）基于本地状态（任务大小、电池、信道等）生成连续动作（卸载预决策、计算频率、传输功率）。
2. 第二阶段（服务器侧混合决策）：边缘服务器（ES）接收用户的预决策请求，结合全局资源信息（如当前队列、存储余量），做出最终的二值决策（批准或拒绝卸载请求）。
优势：这种架构将连续动作空间（用户侧）和离散动作空间（服务器侧）解耦，有效解决了混合动作空间的 DRL 训练难题。

C. UCMS_MADDPG 算法

架构：基于多智能体深度确定性策略梯度（MADDPG），采用“集中训练，分布执行”（CTDE）范式。
- Actor（策略网络）：仅位于用户侧，根据本地状态输出连续动作。
- Critic（Q 网络）：位于服务器侧（集中式），输入所有用户的状态和动作，评估全局价值。
奖励 - 误差权衡优先采样机制 (Reward-Error Trade-off Priority Sampling)：
- 传统优先经验回放（PER）仅基于 TD 误差，容易导致过拟合或陷入局部最优。
- 本文提出复合优先级，结合当前奖励和TD 误差，平衡短期反馈与长期学习误差，提高训练的稳定性和探索效率。
奖励函数：基于任务成本（时延 + 能量）的负值，并引入电池耗尽和任务超时的惩罚项。

3. 主要贡献 (Key Contributions)

多维资源约束建模：构建了一个包含通信、计算、存储及能量约束的动态 MEC 系统模型，特别是显式考虑了服务器存储容量限制，更贴近真实部署场景。
解耦优化策略：提出用户 - 服务器协同选择算法，将复杂的联合优化问题解耦，降低了后续 DRL 算法的搜索空间复杂度。
混合决策支持架构：设计了 UCMS_MADDPG 算法，通过“用户预决策 + 服务器混合决策”的两阶段模型拆分推理，成功解决了连续与离散混合动作空间的联合优化问题。
改进的采样机制：引入基于奖励 - 误差权衡的优先采样机制，有效缓解了 DRL 训练中的过拟合问题，加速收敛并提升策略鲁棒性。

4. 实验结果 (Results)

作者在 Python/PyTorch 环境下进行了仿真实验，对比了 UCMS_MADDPG 与多种基准算法（随机选择 MADDPG、标准 MADDPG、基于最低成本优先的启发式算法、基于截止期限优先的启发式算法）。

收敛性能：UCMS_MADDPG 收敛速度最快（约 60 轮），且最终奖励值显著高于其他算法。协同选择算法为学习提供了稳定的初始状态。
系统成本：随着用户数量增加（12 到 57 个），UCMS_MADDPG 始终保持最低的系统总成本（时延 + 能量），表现出优异的高负载适应性。
任务超时率：UCMS_MADDPG 的任务超时比例显著低于其他算法，证明了其在保障服务质量（QoS）方面的优势。
可扩展性：在扩展至 4 台和 5 台服务器的场景下，算法仍能保持稳定的收敛性和性能，证明了其良好的可扩展性。
服务器参与度：UCMS_MADDPG 能维持较高的服务器参与决策比例，避免了资源闲置或过度竞争。

5. 意义与价值 (Significance)

理论创新：提出了一种新的“模型拆分推理”视角来处理 MEC 中的混合动作空间问题，为 DRL 在复杂边缘计算场景中的应用提供了新的思路。
实际指导：通过显式考虑服务器存储限制和能量收集，该方案比现有研究更具现实指导意义，特别适用于资源受限的 AIoT 场景（如智慧城市、工业物联网）。
性能提升：实验证明该方案在动态、多用户竞争环境下能显著降低时延和能耗，同时提高任务完成率，为未来 6G 及边缘智能系统的资源管理提供了有效的技术参考。

综上所述，该论文通过创新的架构设计和算法改进，有效解决了 AIoT 环境下 MEC 任务卸载中资源受限、动作空间复杂及动态环境适应性差的关键问题。