Joint Trajectory, RIS, and Computation Offloading Optimization via Decentralized Model-Based PPO in Urban Multi-UAV Mobile Edge Computing

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于如何让一群无人机（UAV）在城市里高效工作，同时利用一面“智能镜子”（RIS）来改善信号的故事。

为了让你更容易理解，我们可以把整个系统想象成一个繁忙的城市快递配送中心。

1. 背景：城市里的“快递难题”

想象一下，你有一群无人机快递员（UAV），它们需要在高楼林立的城市里给地面用户（比如你的手机）送数据（计算任务）。

挑战一：信号被挡住。 城市里高楼太多，就像在迷宫里送快递，视线（Line-of-Sight）经常被挡住，信号传不过去。
挑战二：任务太多太急。 用户的数据量很大，而且变化很快，无人机不仅要飞，还要帮用户处理数据（边缘计算），甚至要把数据转发给地面的超级服务器。
挑战三：干扰。 城市里还有“捣乱者”（干扰源/Jammer），故意发射噪音干扰信号，就像有人在快递站旁边大声喊叫，让快递员听不清指令。

2. 核心道具：智能“镜子” (RIS)

为了解决信号被挡住的问题，作者引入了一种叫**可重构智能表面（RIS）**的技术。

比喻： 想象在建筑物墙上贴了一面巨大的、由成千上万个微小镜片组成的智能镜子。
作用： 当无人机发出的信号被大楼挡住时，这面镜子可以瞬间调整角度，把信号“反射”过去，就像用镜子把阳光反射到阴暗的角落一样。它能人为地制造出一条“虚拟的直连通道”。

3. 核心难题：如何指挥这群无人机？

现在问题来了：

无人机怎么飞？（轨迹规划）
数据怎么送？（任务卸载：是自己在无人机上算，还是发给地面服务器？）
镜子怎么调？（相位配置：镜子的角度怎么调才能让信号最强？）

这三个问题必须同时解决，而且它们互相影响：飞的位置变了，信号就变了；镜子角度变了，信号也变了。

以前的方法（传统算法）：

太死板： 像用数学公式硬算，假设环境是完美的，但现实城市太复杂，算不过来。
太慢： 像让无人机试错，飞一次，撞一次，再飞一次，效率太低，电池早就耗光了。

4. 作者的解决方案：聪明的“本地小团队” + “预演”

作者提出了一种新的**“基于模型的分布式强化学习”**（MB-DRL）方法。我们可以把它拆解为两个核心创意：

创意一：不用“总指挥”，只要“邻居” (去中心化 + 局部通信)

旧模式（集中式）： 需要一个超级大脑（总指挥）知道所有无人机的位置、所有用户的请求，然后指挥大家。但这在现实中很难，因为信息传输太慢，而且一旦总指挥挂了，全系统瘫痪。
新模式（分布式）： 每架无人机都是独立的“小队长”。
- 比喻： 就像一群在森林里协作的狼。每只狼不需要知道整个森林的情况，它只需要知道**身边几只狼（邻居）**在哪里、在做什么。
- 做法： 无人机只观察自己附近的邻居（比如 1 跳或 2 跳范围内的其他无人机），大家通过简单的交流（比如“我往左飞了”、“我准备反射信号”），就能默契配合，避免撞车，共同把信号送好。

创意二：先“预演”，再“行动” (基于模型 + 分支推演)

旧模式（无模型）： 像盲人摸象，试错成本太高。飞错了，数据丢了，能量浪费了。
新模式（有模型）： 每架无人机脑子里都有一个**“模拟器”**。
- 比喻： 就像下棋高手，在落子前，会在脑子里快速推演几步：“如果我往左飞，信号会变好还是变坏？如果镜子往右偏，会不会挡住邻居？”
- 做法： 无人机利用学到的“环境规律”（比如信号传播模型），在脑子里进行短时间的预演（Branched Rollouts）。它不需要真的飞过去试错，而是在脑子里模拟出几种可能的结果，然后选择最优的那个方案去执行。
- 好处： 大大减少了实际试错的次数，让学习速度变快，飞行轨迹更平滑，更省电。

5. 结果怎么样？

作者通过大量的电脑模拟实验证明：

效率极高： 他们的系统虽然不需要“总指挥”，但表现几乎和拥有全知全能的“总指挥”系统一样好。
更省电： 无人机飞得更顺，少做无用功，电池更耐用。
更抗干扰： 即使有“捣乱者”干扰，系统也能快速调整策略，保证任务完成。
比旧方法强： 比那些只靠试错（无模型）或者只靠简单交流（传统多智能体学习）的方法，性能提升明显。

总结

这篇论文的核心思想就是：在城市复杂的无线环境中，让无人机像一群聪明的狼一样，通过观察邻居和大脑里的“预演模拟”，自主、高效、省电地完成复杂的送货和信号反射任务，而不需要依赖一个笨重且脆弱的中央大脑。

这就好比让一群快递员在迷宫里，不需要听总部的电话指挥，只要互相看一眼，心里算几步，就能自动找到最快、最省电的路线，还能利用墙上的智能镜子把信号反射到死角。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Joint Trajectory, RIS, and Computation Offloading Optimization via Decentralized Model-Based PPO in Urban Multi-UAV Mobile Edge Computing》（基于去中心化模型强化学习的城市多无人机移动边缘计算中联合轨迹、RIS 与计算卸载优化）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
在密集的城市环境中，利用无人机（UAV）和可重构智能表面（RIS）辅助的移动边缘计算（MEC）面临巨大挑战。

环境挑战： 建筑物导致视距（LoS）链路频繁被遮挡，信号易受干扰。
动态性： 用户需求和信道状态变化迅速。
现有局限： 传统的凸优化方法依赖精确数学模型，难以适应高动态环境；无模型（Model-free）的多智能体强化学习（MARL）虽然能处理非线性耦合，但在部分可观测（Partial Observability）和样本效率（Sample Efficiency）方面表现不佳，且收敛慢、训练不稳定。

核心问题：
如何在部分可观测（UAV 仅能获取局部及邻居信息）和低样本效率（真实交互成本高）的约束下，联合优化以下三个耦合变量，以最大化系统能效（bits/Joule）：

UAV 轨迹规划（3D 位置、速度、加速度）。
计算卸载调度（任务在本地处理、卸载到 UAV 或转发至地面 MEC 服务器的比例）。
RIS 相位配置（通过反射波束成形改善链路质量）。

此外，系统还需考虑干扰机（Jammer）的存在，以评估策略的鲁棒性。

2. 方法论 (Methodology)

作者提出了一种去中心化模型强化学习框架（MB-DRL），结合了近端策略优化（PPO）算法。

A. 系统架构与通信机制

去中心化执行： 每个 UAV 作为一个智能体（Agent），仅基于自身状态和 $\kappa$ -hop（ $\kappa$ 跳）邻居的状态进行决策，无需全局信息。
RIS 控制： UAV 向轻量级 RIS 控制器提交相位建议，控制器聚合（如取平均）后生成全局 RIS 相位矩阵 $\Theta[n]$ 。
局部通信聚合： 不同于简单的均值聚合，该框架利用基于 LSTM 的融合机制，将邻居的状态、策略和隐藏特征进行非线性拼接，以捕捉 UAV、RIS 和 MEC 节点间复杂的耦合动态。

B. 核心算法：基于模型的 PPO (Model-Based PPO)

为了解决样本效率低和训练不稳定的问题，引入了短视界分支展开（Short-horizon Branched Rollouts）：

局部动力学建模： 每个 UAV 学习一个局部的环境转移模型 $\hat{p}(s'|s, a)$ ，用于预测下一时刻的状态。
分支展开（Branched Rollouts）：
- 从真实交互缓冲区（Real Buffer）采样锚点状态。
- 利用学习到的模型 $\hat{p}$ 进行短视界（ $T$ 步）的模拟推演，生成虚拟轨迹。
- 将真实数据与模拟数据混合，用于更新策略网络（Actor）和价值网络（Critic）。
误差控制与理论保证： 通过限制展开步数 $T$ ，将模型误差（Model Error）和依赖偏差（Dependency Bias）控制在有界范围内，从而保证策略更新的单调性和收敛性。

C. 优化目标

最大化整个任务周期内的系统能效（总处理比特数 / 总能耗），能耗包括通信能耗、计算能耗（DVFS 模型）和 UAV 飞行推进能耗。

3. 主要贡献 (Key Contributions)

部分可观测下的去中心化协同：
- 提出了一种完全去中心化的 PPO 结构，智能体仅利用 $\kappa$ -hop 邻居信息。
- 设计了基于 LSTM 的非线性特征融合机制，有效解决了传统方法（如 I3CNet）仅处理局部或平均场信息而无法捕捉复杂耦合动态的局限性。
高样本效率的模型学习框架：
- 将模型学习与策略优化直接集成。利用局部学习到的动力学模型进行短视界分支展开，显著提高了数据利用率。
- 提供了理论分析，证明了在模型误差有界的情况下，策略性能的提升是受控且稳定的，克服了纯无模型方法在动态环境中收敛难的问题。
抗干扰与鲁棒性设计：
- 在系统模型中显式建模了地面干扰机（Jammer）及其对 UAV 和 RIS 的干扰链路，验证了算法在对抗环境下的鲁棒性。

4. 实验结果 (Results)

仿真设置：1000m x 1000m 区域，10 架 UAV，10 个用户，1 个 RIS（64 单元），存在干扰机。

收敛速度： MB-DRL（本文方法）的收敛速度极快，几乎达到了集中式 PPO（CPPO，拥有全局信息的上限）的性能，远快于去中心化的 DPPO 和 I3CNet。
性能指标对比：
- 吞吐量与能效： 本文方法的吞吐量和能效（bits/J）显著优于 DPPO 和 I3CNet，并非常接近 CPPO。
- 数据速率： 通过自适应轨迹和功率分配，保持了更高的数据速率。
- 能耗： 相比基线方法，飞行能耗和计算能耗更低，轨迹更平滑。
消融实验（Ablation Study）：
- 移除邻居通信（No-KH）或移除模型展开（No-BR）均会导致性能显著下降。
- 证明了“局部通信”增强了协作意识，“模型展开”提升了样本效率和稳定性，两者缺一不可。
轨迹分析： 本文方法生成的 UAV 轨迹更加平滑、定向，减少了不必要的折返和震荡，而基线方法（如 DPPO）表现出明显的震荡行为。

5. 意义与价值 (Significance)

理论突破： 解决了多智能体强化学习在部分可观测、高动态环境下的样本效率和收敛稳定性难题，为去中心化控制提供了理论上的误差边界保证。
工程实用： 提出的框架不需要昂贵的全局信息交换，适合大规模 UAV 网络的实际部署。通过引入 RIS 和模型预测，有效解决了城市密集区的信号遮挡问题。
抗干扰能力： 在存在恶意干扰的场景下仍能保持高效运行，为关键基础设施（如应急通信、智慧城市）的 UAV-MEC 部署提供了可靠的解决方案。
未来方向： 该工作为后续研究（如自适应通信调度、不确定性感知的展开策略）奠定了坚实基础。

总结：
该论文成功设计了一种去中心化、基于模型、结合局部通信的强化学习框架，在复杂的城市 UAV-RIS-MEC 网络中，实现了轨迹、卸载和 RIS 相位的联合优化。其核心创新在于利用短视界模型预测弥补了部分可观测的缺陷，同时避免了集中式控制的通信开销，在能效和吞吐量上达到了接近集中式最优的性能。