Near-Field Multiuser Beam Training for XL-MIMO: An End-to-End Interference-Aware Approach with Pilot Limitations

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决的是未来 6G 通信中一个非常棘手的问题：如何在巨大的天线阵列面前，既快又准地找到信号的最佳传输路径，同时还能节省宝贵的“时间资源”。

为了让你轻松理解，我们可以把整个系统想象成一场**“超级大型演唱会”的灯光秀**。

1. 背景：巨大的舞台与混乱的观众

XL-MIMO（超大规模 MIMO）：想象基站是一个拥有成千上万盏灯（天线）的巨型舞台。
近场通信：以前的演唱会，观众都在很远的地方（远场），灯光师只要把光束对准“左边”或“右边”就行。但现在，为了追求极致的清晰度，观众席被拉到了离舞台非常近的地方（近场）。这时候，灯光不仅要考虑“角度”，还要考虑“距离”。
问题：这就好比灯光师不仅要决定照向哪个方向，还要决定照多远。搜索范围瞬间爆炸式增长。如果像以前那样，一盏一盏灯、一个角度一个角度地试（传统方法），等到试完所有组合，演唱会早就结束了，而且观众（用户）会等得不耐烦。

2. 核心挑战：有限的“试错”机会

导频限制（Pilot Limitations）：在通信中，基站需要发一些“探测信号”（导频）来了解观众在哪。但这就像灯光师只有有限的几次试灯机会。如果试灯次数太多，真正唱歌（传输数据）的时间就被挤占了，效率极低。
多用户干扰：舞台上有很多观众（用户），如果灯光师只想着把最亮的光给离得最近的那个人，可能会把旁边的人晃得睁不开眼（干扰）。传统的“分步走”策略（先选角度，再调数字）往往顾此失彼，无法同时照顾所有人。

3. 解决方案：AI 灯光大师 (DL-IABT)

这篇论文提出了一种基于深度学习（AI）的新方法，我们可以把它想象成一位“拥有预知能力的 AI 灯光大师”。

第一步：化繁为简（子阵列近似）

比喻：虽然舞台有几千盏灯，但 AI 大师把它们分成了几个“灯组”（子阵列）。
原理：对于每个灯组，AI 发现只要用一套标准的“远场灯光图”（远场码本）去模拟，效果就足够好了。这大大减少了需要计算的组合数量，就像把几千盏灯简化成几个灯组来管理。

第二步：端到端学习（E2E）与“隐形”的干扰

传统做法：先选灯组，再算怎么调数字，最后看效果。如果第一步选错了，后面怎么调都救不回来。
AI 做法：AI 直接看观众（用户）发来的微弱信号（上行探测），然后一步到位直接告诉灯光师：“把第 3 组灯调到角度 A，第 5 组调到角度 B"。
关键创新：AI 在训练时，并不是只盯着“谁最亮”，而是通过一种特殊的数学公式（变体均方误差损失），隐式地学会了如何平衡所有人。它知道：“如果我把光给 A 太亮，B 就会看不清，所以我要微调一下，让 A 和 B 都能看清。”它不需要显式地计算复杂的干扰公式，而是通过“试错”学会了如何最大化全场总亮度（系统总速率）。

第三步：Transformer 与 Gumbel-Softmax（聪明的决策者）

Transformer：这是 AI 的“大脑”。它像处理语言一样处理用户信号，能理解用户 A 和用户 B 之间的“关系”（干扰关系）。它不是孤立地看每个人，而是看全局。
Gumbel-Softmax：这是一个巧妙的“决策技巧”。因为选灯组必须是整数（要么选 1 号，要么选 2 号），这在数学上很难训练。这个技巧让 AI 在训练时能“平滑地”尝试各种可能，最后再果断地拍板选出一个确定的方案。

4. 效果：快、准、省

论文通过模拟实验证明了这套方法的厉害之处：

省时间：传统方法需要像“扫雷”一样试很多次，AI 只需要很少的几次探测就能猜对。这意味着留给真正传输数据的时间更多了。
效果好：即使在信号很弱或者干扰很复杂的情况下，AI 选出的方案也能让全场的总网速接近理论上的“完美状态”。
抗干扰：它不像传统方法那样只顾自己，而是懂得“顾全大局”，在用户之间进行智能的干扰协调。

总结

简单来说，这篇论文就是给未来的 6G 基站装上了一个**“超级智能的灯光指挥系统”**。

它不再笨拙地一个个试错，而是通过深度学习，看一眼就能猜出怎么开灯能让全场观众看得最清楚、最舒服，同时还能省下大量的试灯时间，让演唱会（数据传输）更加高效流畅。这对于未来超高速、低延迟的通信网络至关重要。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Near-Field Multiuser Beam Training for XL-MIMO: An End-to-End Interference-Aware Approach with Pilot Limitations》（近场 XL-MIMO 多用户波束训练：一种具有导频限制性的端到端干扰感知方法）的详细技术总结。

1. 研究背景与问题 (Problem)

应用场景：极大规模 MIMO（XL-MIMO）系统，工作在近场（Near-field）与远场混合区域。
核心挑战：
1. 搜索空间爆炸：近场传播引入了距离维度，使得波束训练（BT）的搜索空间随角度和距离分辨率呈指数级增长。
2. 导频资源受限：传统的基于码本的波束扫描（Beam Sweeping）在导频资源有限的情况下，开销过大，难以实施。
3. 子连接混合架构（Sub-connected Hybrid Architecture）的复杂性：为了降低硬件复杂度，XL-MIMO 常采用子连接架构。在多用户场景下，子阵列间的波束组合数量随子阵列数量呈指数增长，联合搜索极其困难。
4. 级联设计的局限性：传统方法通常分阶段设计模拟和数字波束成形器（先选模拟波束最大化单用户增益，再优化数字预编码）。这种级联设计忽略了多用户干扰（MUI），导致系统级和速率（Sum-rate）性能下降，尤其是在信道相关性高或散射环境复杂时。
5. 现有深度学习的不足：现有的深度学习方案多针对全数字或全连接混合架构，难以直接适配子连接架构的块对角约束；且许多端到端（E2E）方法需要联合输出模拟和数字矩阵，导致模型过大或训练困难。

2. 方法论 (Methodology)

论文提出了一种名为 DL-IABT（Deep-Learning-based Interference-Aware Multiuser Beam Training）的端到端深度学习框架。

A. 系统模型与近似

子阵列近似：利用子阵列级别的近似，将每个子阵列的响应用远场码本表示。只要子阵列孔径内的最大相位误差小于 $\pi/8$ ，这种近似带来的失配可忽略不计。这使得可以使用标准的远场码本来处理近场问题，大幅降低了搜索空间。
信号模型：考虑 TDD 模式下的上行导频探测，基站接收矩阵 $Y_{UL}$ 包含信道信息和噪声。下行链路采用块对角模拟波束成形器 $F_{RF}$ 和数字预编码 $F_{BB}$ 。

B. 训练目标推导 (MMSE-based Surrogate Loss)

难点：直接最大化和速率（Sum-rate）是非凸的，且受限于离散码本约束，难以直接用于神经网络训练。
解决方案：
1. 利用 KKT 条件，推导出给定模拟波束成形器 $F_{RF}$ 时的闭式 MMSE 数字预编码解 $F_{BB}^*$ 。
2. 将 $F_{BB}^*$ 代入目标函数，消去数字预编码变量，得到一个关于 $F_{RF}$ 的变体均方误差（Variant-MSE）代理损失函数。
3. 该损失函数隐式地包含了多用户干扰（MUI）的抑制能力，且最小化该损失等价于优化系统有效信道条件，从而最大化和速率。

C. 网络架构设计

提出的网络包含四个关键模块：

复数感知前端 (Complex-valued Sensing Front-end)：
- 使用无偏置的复数分组卷积层参数化上行测量过程，模拟时域波束切换。
- 在训练时注入噪声以增强鲁棒性，直接处理复数测量矩阵 $Y_{UL}$ 。
共享复数特征编码器 (Shared Complex-valued Encoder)：
- 使用共享权重的复数 MLP 提取每个用户的信道特征嵌入（Embedding），保留相位信息。
干扰感知多用户预测器 (Interference-Aware Multiuser Predictor)：
- 基于 Transformer 架构，利用多头自注意力机制（Multi-head Self-Attention）处理所有用户的特征嵌入。
- 通过联合处理用户 Token，学习用户间的耦合关系，从而做出考虑全局干扰的波束选择决策。
可扩展波束选择头 (Scalable Beam Selection Head)：
- 采用参数共享的多头输出结构，每个子阵列对应一个预测头。
- 引入 Gumbel-Softmax 松弛技术，将离散的波束索引选择转化为可微分的概率分布，解决了离散选择无法反向传播的问题。
- 输出维度随用户数线性增长，避免了组合爆炸。

3. 主要贡献 (Key Contributions)

端到端干扰感知框架：首次提出针对子连接 XL-MIMO 近场多用户场景的 E2E 波束训练框架，直接预测模拟波束索引，无需分阶段设计。
理论推导与损失函数设计：通过 KKT 条件推导闭式 MMSE 解，构建了变体 MSE 损失函数，成功将离散组合优化问题转化为可学习的映射问题，并隐式优化了系统级性能。
架构创新：
- 设计了复数感知前端和复数编码器，直接处理物理层复数信号。
- 引入 Transformer 捕捉多用户干扰特征。
- 利用 Gumbel-Softmax 和参数共享机制，解决了离散波束选择的训练难题及模型扩展性问题。
近场到远场的简化：通过子阵列近似，巧妙地将近场问题转化为远场码本搜索问题，降低了计算复杂度。

4. 仿真结果 (Simulation Results)

和速率性能：在 20 dB SNR 下，DL-IABT 的和速率达到 46.33 bps/Hz，非常接近理想完美信道状态信息（Ideal PCSI）下的交替优化（AO）上限（49.83 bps/Hz），显著优于基于噪声信道的 AO 和传统的 Radix-4 分层搜索方法。
有效吞吐量（考虑导频开销）：
- 在考虑导频开销后的有效和速率方面，DL-IABT 表现最佳。
- 传统 AO 方法因需要大量导频进行波束搜索，导致有效速率大幅下降（20 dB 时仅为 29.39 bps/Hz），而 DL-IABT 仅需少量导频，有效速率高达 45.96 bps/Hz。
可扩展性：随着码本尺寸（分辨率）的增加，传统方法的导频开销迅速超过信道相干时间，导致有效速率归零。DL-IABT 由于直接从少量观测中预测索引，性能保持稳定，展现出对高分辨率波束的强扩展性。

5. 意义与价值 (Significance)

解决导频瓶颈：在 XL-MIMO 和近场通信中，导频资源是主要瓶颈。该方法通过深度学习将波束训练转化为“感知 - 预测”问题，大幅降低了导频开销。
提升系统级性能：打破了传统级联设计的局限，通过端到端优化直接针对系统总速率和多用户干扰进行波束选择，显著提升了频谱效率。
架构适配性：专门针对子连接混合架构设计，解决了该架构下多用户联合波束搜索的复杂度问题，为未来 6G 大规模天线系统的实际部署提供了可行的技术方案。
通用性潜力：提出的复数神经网络架构和 Gumbel-Softmax 离散优化策略，对其他涉及离散决策的无线通信问题（如资源分配、用户调度）也具有借鉴意义。

总结：该论文通过结合深度学习、Transformer 架构和信号处理理论，提出了一种高效、低开销且性能优越的近场 XL-MIMO 多用户波束训练方案，有效解决了导频受限和干扰管理两大难题。