Adaptive Personalized Federated Reinforcement Learning for RIS-Assisted Aerial Relays in SAGINs with Fluid Antennas

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“未来天空互联网如何变得更聪明、更灵活”**的故事。

想象一下，我们未来的网络不仅仅是在地面上，而是连接了太空（卫星）、天空（无人机）和地面（你的手机），形成了一个巨大的“天地一体化网络”（SAGIN）。

但这篇论文指出了一个大问题：这个网络太复杂了，而且环境一直在变。比如，卫星在高速移动，无人机在飞，地面上有的用户用着普通手机，有的用着一种叫“流体天线”的超级设备（可以像变形金刚一样调整接收信号的位置）。如果用一个固定的“大脑”来指挥所有人，效果肯定不好。

为了解决这个问题，作者们提出了一套**“自适应个性化联邦强化学习”**的方案。为了让你更容易理解，我们可以用几个生动的比喻：

1. 核心角色：谁在做什么？

低轨道卫星（LEO） = 总指挥（Global Server）
- 它们像天上的“总教官”，负责收集大家的经验，制定一个大致的策略，然后发给下面的无人机。
无人机（UAV） = 前线教官（Local Agents）
- 它们像在地面热点区域巡逻的教官。每个教官负责一片区域，它们要决定自己怎么飞（轨迹），以及怎么调整身上的“智能反射板”（RIS，就像一面可以随意改变角度的镜子，把卫星信号反射给用户）。
地面用户 = 学员
- 有的学员很普通（普通手机），有的学员装备了“流体天线”（FAS），这种天线能自动找到信号最好的位置，就像变色龙一样灵活。

2. 遇到的挑战：为什么很难？

想象一下，总指挥（卫星）要教 5 个前线教官（无人机）怎么教学生。

环境不同： 教官 A 的区域全是高楼大厦，信号很难传；教官 B 的区域很空旷。
学员不同： 教官 A 的学生里有一半是“流体天线”高手，教官 B 的学生全是普通手机。
时间紧迫： 卫星飞得很快，教官们必须立刻做出反应，不能等总指挥慢慢算完再发指令。

如果总指挥只给一个**“万能公式”（比如“所有教官都往东飞”），那在复杂环境下肯定行不通。这就是“异质性”**带来的挑战。

3. 解决方案：FedPG-AP（自适应个性化联邦学习）

作者提出了一种聪明的训练方法，叫**“联邦强化学习”。这就像是一个“分布式学习俱乐部”**：

传统做法（联邦学习）： 所有教官都学同一个“标准答案”，然后总指挥把大家的经验汇总，更新一次“标准答案”。
- 缺点： 就像让所有教官都穿同一码的鞋子，有的脚大，有的脚小，都不舒服。
本文的创新（个性化 + 自适应）：
作者设计了一个**“混合大脑”**。
1. 共享部分（全球层）： 教官们共享一些通用的经验，比如“怎么避开云层”、“基本的飞行规则”。
2. 个性部分（本地层）： 每个教官保留一部分自己的“独门秘籍”，专门针对自己区域的特殊地形和特殊学员。
3. 自适应调整（核心亮点）： 这是最精彩的部分！系统会实时观察：
  - 如果某个教官发现大家的“独门秘籍”差别太大了（说明环境差异大），系统就自动增加他的个性部分，让他多学点自己的经验。
  - 如果大家的经验其实差不多，系统就自动减少个性部分，让他多学点大家的通用经验。
  - 比喻： 就像教练发现某个队员在雨天表现特别好，就让他多练雨天技巧；发现另一个队员在晴天很强，就让他多练晴天技巧。教练会根据实时情况，动态调整每个人“学通用课”和“学专业课”的比例。

4. 游戏化分析：谁是老大？

为了证明这个方法行得通，作者还玩了一个**“层级博弈”**（Stackelberg Game）：

第一层： 卫星（总指挥）先定大方向。
第二层： 无人机（教官）根据大方向，决定怎么飞、怎么调镜子。
第三层： 用户（学员）根据信号好坏，决定用哪个天线端口。
结论： 这种“你定我动”的层级关系，被证明是数学上可以解决的，而且能找到最优解。

5. 结果如何？

作者做了大量的模拟实验（就像在超级计算机上开了 100 场模拟赛）：

速度更快： 这种“自适应个性化”的方法，比那些“一刀切”的方法学得更快。
更稳： 即使环境突然变了（比如突然下雨，或者用户突然多了），这个系统也能稳住，不会像其他方法那样“崩盘”。
效率更高： 最终的网络下载速度（吞吐量）是最高的。

总结

这篇论文的核心思想就是：在复杂的未来网络中，没有一种“万能药”能解决所有问题。

最好的办法是建立一个**“既团结又独立”**的体系：大家共享基础智慧（联邦学习），但允许每个人根据自己遇到的具体情况（个性化），动态调整自己的策略（自适应）。就像一支特种部队，既有统一的战术纪律，又能让每个队员根据战场瞬息万变的情况，灵活发挥各自的特长，从而打赢这场“通信战争”。

这对于我们未来实现6G 网络，让手机在天上、地下、海上都能随时随地连上网，具有非常重要的指导意义。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Adaptive Personalized Federated Reinforcement Learning for RIS-Assisted Aerial Relays in SAGINs with Fluid Antennas》（面向具有流体天线的 SAGIN 中 RIS 辅助空中中继的自适应个性化联邦强化学习）的详细技术总结。

1. 研究背景与问题 (Problem)

背景：
空间 - 空 - 地一体化网络（SAGINs）是 6G 通信的关键框架，通过连接低轨（LEO）卫星、无人机（UAV）和地面设备提供泛在连接。为了增强无线电环境可控性，可重构智能表面（RIS）和流体天线系统（FAS）被引入。RIS 通过可编程相位控制实现被动信号反射，而 FAS 允许用户端在预定义区域内灵活调整天线端口位置，从而优化接收增益。

核心挑战：

环境高度动态与异构性： SAGIN 中跨层设施（卫星、UAV、RIS）与增强技术（FAS）的紧密集成，导致环境动态变化剧烈且存在显著的空间异构性（不同热点区域的用户分布、FAS 用户比例、激活概率不同）。
建模与优化困难： 现有的集中式深度强化学习（DRL）在多智能体场景下通信开销大且存在安全风险；传统的联邦学习（FL）往往假设环境同质，难以适应 SAGIN 中不同热点的异构特性，单一的全局策略无法在所有环境中达到最优。
联合优化复杂性： 需要同时优化 UAV 轨迹、RIS 相位控制以及 FAS 用户的端口激活，这是一个混合整数非线性规划（MINLP）问题，且涉及时变随机信道。

研究目标：
设计一种机制，在 RIS 辅助的 UAV 中继和 FAS 用户共存的 SAGIN 环境中，联合优化 UAV 轨迹和 RIS 相位，以最大化多热点的下行链路总速率，同时解决环境异构带来的学习难题。

2. 方法论 (Methodology)

本文提出了一套完整的系统模型和基于**自适应个性化联邦强化学习（Adaptive Personalized FRL, FedPG-AP）**的解决方案。

2.1 系统建模

网络架构： LEO 卫星星座通过 RIS 辅助的 UAV 中继与多个地面热点通信。每个热点包含 FAS 用户（配备多端口流体天线）和传统用户。
空间模型： 考虑了卫星轨道运动（LEO 切换）、UAV 轨迹（固定高度，受速度限制）和用户分布。
信道模型：
- LEO-UAV-RIS 链路： 采用 Rician 衰落模型，考虑视距（LoS）主导。
- UAV-RIS-用户链路： 区分 FAS 用户和非 FAS 用户。FAS 用户通过选择最佳端口（Port Selection）接收信号，考虑了端口间的空间相关性。
问题形式化： 建立了一个长期下行链路总速率最大化问题，受限于 UAV 飞行约束和 RIS 离散相位控制。

2.2 理论分析：分层 Stackelberg 博弈

为了证明问题的可解性，作者构建了分层 Stackelberg 博弈模型：

UAV 与用户层： UAV（领导者）控制轨迹和 RIS 相位，FAS 用户（跟随者）根据信道状态选择最佳端口。证明了该博弈存在纳什均衡（NE）。
卫星与 UAV 层： LEO 卫星（全局服务器）聚合策略，UAV（本地代理）执行策略。证明了该层博弈也存在纳什均衡。
马尔可夫博弈转化： 将上述优化问题转化为马尔可夫博弈，为强化学习算法设计奠定基础。

2.3 核心算法：FedPG-AP

针对环境异构性，提出了一种**自适应个性化联邦策略梯度（Federated Policy Gradient with Adaptive Personalization, FedPG-AP）**算法：

架构： 卫星作为全局服务器聚合模型，UAV 作为本地代理在各自热点训练。
自适应个性化机制（Adaptive Personalization, AP）：
- 网络分层继承： 策略网络被划分为输入层（局部）和输出层（全局）。输入层捕捉特定热点的特征，输出层共享全局经验。
- 动态调整： 根据本地梯度与全局中值梯度的距离（Policy Divergence），动态调整每一轮训练中的“局部层”与“全局层”的划分边界。
  - 若距离过大（环境差异大），增加局部层（增强个性化）。
  - 若距离过小（环境相似），增加全局层（增强知识共享）。
- 无需额外网络结构： 这种调整仅通过参数继承策略实现，不增加通信开销。
训练流程： 结合本地训练（Local Training）、自适应个性化调整（AP）和基于随机方差减少策略梯度（SVRPG）的全局训练（Global Training）。

3. 主要贡献 (Key Contributions)

统一系统模型： 首次构建了集成 LEO 卫星、RIS 辅助 UAV 中继以及 FAS/非 FAS 混合用户的统一 SAGIN 模型，显式刻画了跨热点的信道异构性，并建立了相应的下行链路速率最大化问题。
理论可解性证明： 通过构建分层 Stackelberg 博弈，从理论上证明了 UAV 轨迹、RIS 相位及用户端口激活联合优化问题的可解性（存在纳什均衡）。
自适应个性化 FRL 框架： 提出了 FedPG-AP 算法，创新性地引入自适应机制，在不增加网络结构复杂度的前提下，动态平衡局部特化与全局知识共享，有效解决了 SAGIN 环境异构导致的联邦学习性能下降问题。
全面仿真验证： 通过大量仿真，揭示了个性化机制在动态异构环境中的关键作用，证明了该方法在收敛稳定性、学习速度和最终系统性能上均优于非个性化联邦学习、固定个性化联邦学习及非联邦基准算法。

4. 实验结果 (Results)

在基于 Python 和 PyTorch 的仿真环境中（5 个 UAV 热点，30 个时间片，SpaceX 卫星轨道参数），主要结果如下：

训练性能：
- FedPG-AP 取得了最高的总奖励（Total Reward）和最小的方差，表现出最稳定的收敛行为。
- FedPG-NP（无个性化）方差最大，对环境差异敏感，导致训练不稳定。
- FedPG-FP（固定个性化）虽然方差较小，但整体性能不如 FedPG-AP，说明固定的划分无法适应动态变化。
- SVRPG（非联邦）几乎无法学习，性能最差。
参数敏感性分析：
- 通过调整阈值（ $\sigma_{close}, \sigma_{far}$ ）和初始划分层数（ $e_0$ ），发现平衡配置（即不过度偏向局部或全局）能获得最佳性能。
- 过紧的阈值导致过早的全局增强，限制了探索；过松的阈值导致过度个性化，增加了方差。
验证测试（100 次独立运行）：
- 下行速率： FedPG-AP 在整个时间段内保持最高平均速率（约 725 Kbps），显著优于其他方法。
- 稳定性： FedPG-AP 具有最小的变异系数（CV）和斜率偏差（SD），表明其在不同随机生成的异构环境中具有极强的适应性和传输稳定性。

5. 意义与价值 (Significance)

理论创新： 将流体天线（FAS）与 RIS 技术结合在 SAGIN 场景中进行系统级建模，填补了该领域联合优化的研究空白。
算法突破： 提出的自适应个性化机制解决了联邦强化学习在高度异构网络（如 SAGIN）中“一刀切”策略失效的痛点，为未来 6G 分布式智能网络控制提供了新的范式。
实际应用潜力： 该方案不仅提升了频谱效率和覆盖范围，还通过联邦学习保护了用户数据隐私，同时利用卫星间链路（ISL）保证了训练连续性，对构建高可靠、泛在的 6G 天地一体化网络具有重要的指导意义。

总结： 本文通过理论建模、博弈论分析和创新的自适应联邦强化学习算法，成功解决了复杂动态 SAGIN 环境下的资源联合优化问题，证明了个性化机制在提升系统性能和鲁棒性方面的关键作用。