Cooperative Deep Reinforcement Learning for Fair RIS Allocation

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于如何让未来的无线网络（6G）既快又公平的故事。

想象一下，未来的城市里布满了像“智能镜子”一样的东西，我们叫它RIS（可重构智能表面）。这些镜子可以像变魔术一样，把无线信号反射到信号不好的地方（比如墙角、树后），让手机信号满格。

但是，这些“智能镜子”数量有限，而且很贵。当两个基站（可以想象成两个信号发射塔）争夺这些镜子时，问题就来了：

基站 A 服务的人很少，信号本来就好。
基站 B 服务的人非常多（比如在一个拥挤的体育馆），信号本来就很差，大家经常卡顿。

如果完全按“谁出价高谁得”或者“谁更需要谁得”的简单规则，往往会导致强者更强，弱者更弱。基站 A 可能抢走了所有镜子，而基站 B 里的人依然连不上网。

这篇论文提出的解决方案，就像是一场**“带有同情心的拍卖游戏”，结合了人工智能（AI）**的智慧。

1. 核心角色与场景

智能镜子 (RIS)：稀缺的资源，能提升信号。
基站 (BS)：两个争夺资源的“买家”。一个是“富裕区”（人少），一个是“拥挤区”（人多，急需帮助）。
拍卖师：负责卖镜子的系统。
AI 代理人：每个基站里都有一个聪明的 AI，负责帮基站出主意，决定要不要买镜子，出多少钱。

2. 他们是怎么玩的？（拍卖机制）

这就好比一个**“不断加价”**的拍卖会：

拍卖师喊出一个起步价。
两个基站的 AI 互相观察，决定要不要举牌（出价）。
如果有人举牌，价格就涨一点，进入下一轮。
最后，谁出价高谁就得到镜子。

以前的做法：AI 只关心“我能不能赚到更多钱（提升多少网速）”。这会导致“富裕区”的基站拼命抢镜子，因为它的收益看起来很大。

这篇论文的新做法：引入了一种**“公平感”**。

3. 核心创新：AI 的“公平感”

作者给每个基站的 AI 加了一个**“公平系数”**（就像游戏里的“同情分”）。

如果基站 B（拥挤区）表现很差：它的 AI 会收到一个特殊的信号：“嘿，你现在的处境很艰难，系统很同情你，你可以更激进一点去抢镜子，哪怕价格贵一点也没关系，系统会支持你！”
如果基站 A（富裕区）表现很好：它的 AI 会收到信号：“你过得很好了，稍微收敛一点，把机会留给更需要的人。”

这就好比：
在一个分蛋糕的游戏中，如果一个人已经吃得很饱了，AI 会建议他：“别抢了，让给那个饿着肚子的人吧。”而那个饿着肚子的人，AI 会鼓励他：“大胆去抢，这是你应得的！”

这种“公平感”不是靠大家互相商量（因为基站之间不能直接聊天），而是通过拍卖师告诉每个 AI 现在的“公平权重”来实现的。这是一种**“心照不宣的默契”**。

4. 结果如何？

通过大量的计算机模拟（就像在虚拟世界里玩了成千上万次游戏），作者发现：

弱者变强了：那个拥挤的基站（基站 B）抢到了更多镜子，里面那些原本信号最差的用户，网速提升了很多（论文里说提升了约 34%）。
整体没亏多少：虽然为了照顾弱者，总体的网速（大家加起来的速度）稍微下降了一点点（不到 7%），但这点损失换来的是巨大的公平，非常划算。
不再“马太效应”：资源不再只流向强者，而是流向了最需要的地方。

5. 总结

这就好比在管理一个交通系统：
以前，大家都往路况好的大路挤，结果大路更堵，小路更空。
现在，我们给 AI 装上了**“公平导航”**。当 AI 发现某条路（基站）堵得水泄不通时，它会主动引导更多的车辆（智能镜子资源）去支援那条路，哪怕这意味着大路稍微空一点。

一句话总结：
这篇论文教给网络基站一种**“互助精神”**，利用人工智能在拍卖中自动调节，确保在资源有限时，信号最差的用户也能得到照顾，让未来的 6G 网络既高效又充满人情味。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Cooperative Deep Reinforcement Learning for Fair RIS Allocation》（基于协作深度强化学习的公平 RIS 分配）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：
随着向 6G 无线网络的演进，在干扰受限的环境中实现智能资源管理至关重要。虽然大规模天线系统提高了峰值速率，但在小区边缘（Cell Edge）由于传播条件差和资源共享竞争激烈，用户和服务的公平性仍面临巨大挑战。可重构智能表面（RIS）作为一种新兴技术，能够通过编程控制无线传播环境来增强信号并抑制干扰。

核心问题：
在多小区场景中，RIS 通常部署在小区边缘，可能同时服务于多个基站（BS），从而引发基站间对共享 RIS 基础设施的竞争。现有的协调技术（如 CoMP 或无蜂窝 Massive MIMO）受限于协调簇的大小，难以实现全网协调。

挑战： 如何在用户分布不均（例如某些基站过载，某些欠载）的非对称多小区场景下，动态、公平且高效地将 RIS 资源分配给竞争的基站？
目标： 在保持系统总吞吐量竞争力的同时，显著提升最差服务用户（Worst-served users）的速率，解决性能不平衡问题。

2. 方法论 (Methodology)

本文提出了一种基于公平感知的协作多智能体强化学习（Cooperative Multi-Agent RL）框架，结合**同时递增拍卖（Simultaneous Ascending Auction）**机制来解决 RIS 分配问题。

A. 系统模型

场景： 多小区下行链路，包含 $N_{BS}$ 个基站、 $N_{UE}$ 个用户和 $N_{RIS}$ 个 RIS。
信道模型： 考虑直射链路（NLOS，瑞利衰落）和 RIS 辅助链路（包含 LOS 和 NLOS 分量，莱斯衰落）。基站通过波束赋形指向 RIS，利用 LOS 分量进行相干组合。
性能评估： 由于缺乏瞬时信道状态信息（CSI），系统基于大数定律和宏观信道参数估算信干噪比（SINR）和可达速率。

B. 分配机制：同时递增拍卖

RIS 被视为由独立基础设施提供商管理的共享资源。
通过多轮拍卖，基站根据当前价格提交竞标向量。
规则： 单轮中只有一个竞标者出价则分配；多个竞标者则进入下一轮；无竞标者则保持未分配（随机相位）。

C. 强化学习策略 (RL-based Bidding)

每个基站作为一个智能体（Agent），通过 PPO（近端策略优化）算法学习竞标策略。

状态与观测 (State & Observation)：
- 智能体观测当前拍卖价格、剩余预算、归一化的边际效用值（Marginal Utility）。
- 关键创新： 引入公平权重（Fairness Weight, $w^{(b)}_t$ ）。该权重由中央计算，基于各基站当前的平均效用值。性能较差的基站获得更高的权重，性能较好的基站权重较低。
- 观测向量包含公平权重，使智能体能够根据相对服务质量调整策略，无需基站间直接通信。
奖励函数 (Reward Function)：
奖励设计旨在平衡效用获取、成本控制与公平性：
$r^{(b)}_t = R^{(b)}_{1,t} - \beta w^{(b)}_t (R^{(b)}_{2,t} + R^{(b)}_{3,t})$
- $R^{(b)}_{1,t}$ ：竞标带来的预期效用增益（正向奖励）。
- $R^{(b)}_{2,t}$ ：竞标成本（负向惩罚）。
- $R^{(b)}_{3,t}$ ：预算超支惩罚。
- 公平调节： 成本项和惩罚项乘以公平权重 $w^{(b)}_t$ 。这意味着性能较差的基站（ $w$ 较大）在竞标时受到的成本惩罚相对较小，从而鼓励其更积极地竞标；而性能较好的基站则受到更严格的成本约束，促使其让出资源。
训练过程：
- 使用 Gymnasium 和 PettingZoo 构建多智能体环境。
- 使用 PPO 算法进行训练，通过大量独立网络实现（随机用户位置、信道参数）来学习鲁棒的竞标策略。

3. 主要贡献 (Key Contributions)

公平感知的 RIS 分配框架： 首次将公平性指标（基于性能差异的动态权重）直接嵌入到多智能体强化学习的观测和奖励函数中，实现了隐式的协作协调。
解决非对称负载问题： 专门针对用户分布不均的过载/欠载场景，通过拍卖机制和 RL 策略，自动将 RIS 资源向弱势基站倾斜。
可调节的公平 - 效率权衡： 引入可调参数 $\gamma$ 控制公平机制的强度，允许网络运营商根据需求在总吞吐量（效率）和最小用户速率（公平）之间进行灵活权衡。
无需直接通信的协作： 智能体仅通过拍卖者提供的全局公平指标进行间接协调，避免了复杂的基站间信令交互。

4. 实验结果 (Results)

仿真设置包含 2 个基站（一个过载，一个欠载）和 10 个 RIS。

效率与公平的权衡 (Pareto Frontier)：
- 随着公平参数 $\gamma$ 的增加，过载基站（BS0）的最小用户速率提升了约 34%。
- 与此同时，两个基站的总吞吐量仅下降了不到 7%。
- 这表明该方法能在几乎不牺牲系统整体效率的情况下，显著改善最差用户的体验。
公平性指标 (Atkinson Inequality Index)：
- 随着 $\gamma$ 增加，Atkinson 不平等指数单调下降，证明用户间的速率分布更加均匀。
- 该结果对公平敏感度参数 $\epsilon$ 的变化具有鲁棒性。
资源分配行为：
- 随着 $\gamma$ 增大，RIS 资源明显从欠载基站（BS1）向过载基站（BS0）转移。
- 未分配的 RIS 数量减少，表明弱势基站在公平机制的激励下采取了更积极的竞标策略。

5. 意义与展望 (Significance)

理论意义： 证明了将机制设计（拍卖）与多智能体强化学习相结合，可以有效解决无线资源管理中的公平性问题，特别是在缺乏全局协调能力的分布式场景下。
实际价值： 为未来 6G 网络中 RIS 的部署和运营提供了一种灵活的工具，能够动态平衡网络效率与社会公平（Equity），特别适用于用户分布不均的城市热点区域。
未来方向： 研究可扩展至更多基站和用户的复杂拓扑，探索其他拍卖格式（如密封投标），以及应对非平稳（时变用户）环境。

总结： 该论文提出了一种创新的协作 RL 框架，通过拍卖机制和动态公平权重，成功解决了多小区 RIS 分配中的资源竞争与公平性问题，实现了在保持高系统吞吐量的同时，大幅改善边缘用户和过载小区的服务质量。