Indirect and Direct Multiuser Hybrid Beamforming for Far-Field and Near-Field Communications: A Deep Learning Approach

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个非常前沿的通信难题：如何在未来的 6G 网络中，用极低的成本和极高的效率，让基站同时给很多用户“精准投送”信号，无论这些用户是离得很近还是离得很远。

为了让你轻松理解，我们可以把整个系统想象成一个拥有成千上万只“耳朵”和“嘴巴”的超级指挥家（基站），正在指挥一场宏大的交响乐（通信信号）。

以下是这篇论文的通俗解读：

1. 背景：为什么现在的指挥家不够用了？

现状（5G/4G）： 以前的基站就像普通的指挥家，主要靠“角度”来区分用户。比如，用户 A 在左边，用户 B 在右边，指挥家就朝左和朝右挥棒子。这就像在平地上用手电筒照人，只要角度不同，光就能分开。
新挑战（6G/XL-MIMO）： 未来的基站天线多到像一面巨大的墙（超大规模 MIMO）。这时候，用户不仅分“左右”，还分“远近”。
- 近场效应： 如果用户离得特别近（比如就在基站楼下），声波（电磁波）不再是平行的直线，而是像水波一样呈球形扩散。这时候，光看角度不行了，还得看距离。
- 难题： 指挥家（基站）要同时给几百个用户发信号，还要避免大家互相听不清（干扰）。传统的算法太慢、太复杂，算不过来；而现有的 AI 方法要么太笨（只懂角度不懂距离），要么太不稳定（训练时容易“发疯”）。

2. 核心创新：给指挥家装上了“超级大脑”

作者设计了一个端到端（End-to-End）的深度学习框架，相当于给指挥家装了一个能直接听音辨位、自动指挥的 AI 大脑。这个大脑有两个工作模式：

模式一：间接模式（有地图，直接指挥）

场景： 基站已经通过某种方式知道了每个用户的确切位置（信道状态信息，CSI）。
做法： AI 大脑直接看着地图，算出怎么挥棒子（模拟波束成形）效果最好。
创新点（变体 MMSE）： 传统的 AI 训练就像让指挥家直接猜“怎么让音乐最响亮”，这很难算，容易出错。
- 这篇论文改了一个策略：它先算出“怎么让音乐最清晰、杂音最小”（最小均方误差），然后用数学公式直接算出数字部分的指挥棒，只让 AI 去学最难的部分（模拟部分的指挥棒）。
- 比喻： 就像教学生做题，老师不再让学生死记硬背所有步骤，而是直接告诉学生：“公式 A 和 B 是固定的，你只需要学会怎么调整 C 这个变量，剩下的我帮你算好了。”这样学起来又快又稳。

模式二：直接模式（没地图，盲猜也能行）

场景： 基站不知道用户在哪，也没时间慢慢测位置（没有显式的信道信息）。
做法： 基站先发射几个短促的“哨音”（导频），用户听到后回应。AI 大脑直接根据这些回声，盲猜出指挥棒该怎么挥。
创新点： 以前的方法需要先“猜位置”再“指挥”，中间容易出错。这篇论文让 AI 直接学习“回声”到“指挥棒”的映射。
- 比喻： 就像在漆黑的房间里，你不需要先画出房间的地图，而是直接根据回声判断哪里该放镜子，哪里该放扩音器。AI 学会了这种“听声辨位”的本能。

3. 技术亮点：为什么它这么强？

复数神经网络（Complex-Valued DNN）：
- 信号是有“相位”和“幅度”的（就像声音有高低和强弱）。普通的 AI 把这两个拆开算，容易算错。这个 AI 是原生复数的，就像它天生就能理解“旋转”和“波动”，算得更准。
分组卷积（Grouped Convolution）：
- 基站天线成千上万，如果每个都单独算，AI 会累死。作者设计了一种“分组”机制，让 AI 像分组讨论一样，把天线分成小组，每组负责一部分探测任务。这大大减少了计算量，让 AI 跑得快。
恒模约束（Constant-Modulus）：
- 硬件限制：模拟波束成形器（相位器）只能改变信号的“方向”，不能改变信号的“强弱”（就像手电筒只能转方向，不能调亮度）。
- 作者设计了一个特殊的“归一化层”，确保 AI 输出的结果永远符合硬件的物理限制，不会教出“不可能实现”的指挥动作。

4. 效果如何？（实验结果）

速度快： 在间接模式下，它的速度比传统迭代算法快几十倍，几乎可以实时响应。
省资源： 在直接模式下（没地图），它只需要很少的“哨音”（导频）就能达到很好的效果。相比之下，传统方法需要发很多哨音才能猜对位置。
抗干扰强： 无论是在极近的距离（近场）还是极远的距离（远场），它都能保持稳定的性能，把干扰降到最低。
数据提升： 相比现有的其他 AI 方法，它的网速（频谱效率）提升了约 3 bps/Hz，这在通信领域是一个巨大的飞跃。

总结

这篇论文就像是给未来的 6G 基站设计了一套**“直觉式”的指挥系统**。

它不再依赖繁琐的数学计算和精确的地图，而是通过深度学习，让基站学会直接根据信号特征来调整天线。无论是用户离得近还是远，无论是信号强还是弱，这个系统都能像一位经验丰富的老指挥家一样，迅速、精准地指挥成千上万个天线，让每个人都能听到最清晰的“音乐”，而且还不费脑子（计算量小）。

一句话概括： 用 AI 把复杂的数学题变成了“直觉反应”，让 6G 基站能更聪明、更省电、更快速地给海量用户发信号。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于极大规模多输入多输出（XL-MIMO）系统中近场与远场通信的混合波束成形的学术论文。文章提出了一种基于**深度学习（Deep Learning）**的端到端（End-to-End, E2E）框架，旨在解决近场通信中信道依赖角度和距离、多用户干扰（MUI）强以及传统优化方法计算复杂度高、不稳定的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景： 6G 网络需要极高的频谱效率，推动了极大规模天线阵列（ELAAs/XL-MIMO）的发展。大孔径阵列使得用户可能位于近场区域，此时传统的平面波假设失效，必须采用球面波模型，信道特性同时依赖于角度和距离。
挑战：
1. 近场聚焦与干扰： 近场波束聚焦（Beam Focusing）虽然能区分角度相同但距离不同的用户（LDMA），但联合优化模拟和数字波束成形以最大化和速率并抑制多用户干扰（MUI）是一个非凸且计算量巨大的问题。
2. 现有深度学习方法的局限：
  - 解耦设计： 仅优化模拟波束成形而未显式考虑 MUI，导致性能受限。
  - 端到端（E2E）联合优化： 直接优化模拟和数字部分往往面临非凸恒模（Constant-Modulus, CM）约束、模拟 - 数字强耦合以及基于和速率（Sum-Rate）损失函数导致的梯度不稳定（如 ReLU 饱和、梯度消失/爆炸）问题。
3. 信道状态信息（CSI）获取困难： 在 XL-MIMO 系统中，获取完美 CSI 的开销巨大，现有的基于导频的稀疏恢复方法在近场下容易因网格失配而性能下降。

2. 核心方法论 (Methodology)

作者提出了一种全复数值的端到端（E2E）框架，支持两种模式：间接模式（基于估计的 CSI）和直接模式（基于短导频，无需显式 CSI）。

A. 优化目标：变体 MMSE (Variant-MMSE)

为了稳定训练并解决非凸优化问题，文章没有直接优化和速率，而是采用了**变体最小均方误差（Variant-MMSE）**准则作为训练目标。

关键创新： 利用 KKT 条件，将数字预编码器（Digital Precoder）以**闭式解（Closed-form）**的形式消除。
效果： 训练目标仅依赖于模拟预编码器（Analog Precoder），从而将模拟和数字设计解耦。这避免了 E2E 优化中的梯度不稳定性，同时保证了数字部分的理论最优性。

B. 网络架构

提出的网络是一个全复数深度神经网络（DCN），包含三个主要模块：

分组复数卷积感知前端（Grouped Complex-Convolution Sensing Front-end）：
- 模拟上行链路（UL）的测量过程。
- 学习一组可训练的感知矩阵 $\Phi^{(n)}$ ，替代传统的固定码本扫描。
- 采用分组卷积以减少参数量并增强鲁棒性，输入为信道矩阵（间接模式）或接收信号（直接模式）。
共享复数多层感知机（Shared Complex MLP）：
- 针对每个用户提取潜在特征。
- 使用复数批归一化（Complex BN）和自定义的复数双曲正切激活函数（Complex Tanh）。实验表明，Complex Tanh 比 CReLU 等更能维持梯度稳定，防止梯度爆炸。
合并输出头（Merged Output Head）：
- 聚合所有用户的特征，输出模拟预编码器的向量。
- 通过恒模归一化层（CM Normalization），强制满足硬件相位偏移器的幅度约束（ $|F_{RF}| = 1/\sqrt{M}$ ）。

C. 两种工作模式

间接模式 (Indirect Mode)：
- 输入： 估计的信道状态信息（CSI）。
- 流程： 网络直接输出模拟预编码器 $F_{RF}$ ，然后利用 KKT 闭式解计算数字预编码器 $F_{BB}$ 。
- 优势： 复杂度随天线数线性降低，性能接近迭代优化算法。
直接模式 (Direct Mode)：
- 输入： 短上行导频信号（无需显式 CSI）。
- 流程：
  1. 网络学习感知算子，直接从导频映射到模拟预编码器。
  2. 部署模拟预编码器后，通过额外的导频重复块估计等效基带信道（Effective Channel）。
  3. 基于等效信道，利用 KKT 闭式解计算数字预编码器。
- 优势： 显著降低导频开销和反馈开销，适合 XL-MIMO 部署。

3. 主要贡献 (Key Contributions)

全复数 E2E 架构： 设计了首个支持近/远场混合波束成形的全复数深度神经网络，包含感知层、共享 MLP 和恒模输出层，有效协调了用户特征以抑制 MUI。
数据驱动的间接与直接设计：
- 间接模式： 在保持近最优性能的同时，将计算复杂度降低了与天线数量成比例的阶数。
- 直接模式： 在有限导频预算下，通过端到端学习感知算子，显著提升了频谱效率，优于传统的稀疏恢复流程。
基于 Variant-MMSE 的稳定训练策略： 通过 KKT 条件消除数字预编码器，将复杂的联合优化转化为稳定的模拟预编码学习问题，解决了传统 E2E 和速率优化的梯度不稳定问题。
可解释性分析： 通过可视化感知模式和潜在特征流形，证明了网络能够物理地学习到依赖于距离的空间结构（如近场球面波相位演化），而不仅仅是统计特征。

4. 实验结果 (Results)

仿真在 100 GHz 频段、128 天线 ULA 的 XL-MIMO 系统下进行：

间接模式性能：
- 相比现有的 SU-DNN 和 LDMA 码本搜索方法，提出的 DL-IMHB 在和速率上提升了约 3 bps/Hz。
- 在低复杂度设置下（单次前向传播），性能接近迭代变体 MMSE 优化（需多次迭代），且计算延迟极低。
直接模式性能：
- 在相同导频预算下（如 $N+I=6+2$ ），DL-DMHB 显著优于稀疏恢复方法（P-SOMP, P-SIGW）和基线 DNN。
- 在极端近场（距离 10m）下，传统稀疏恢复方法因网格失配性能急剧下降，而 DL-DMHB 保持稳健，和速率提升显著。
- 在导频受限场景下，DL-DMHB 比 P-SIGW（需 24 个导频）节省了大量导频资源，同时获得更高的频谱效率。
可扩展性与鲁棒性：
- 随着用户数增加，DL-DMHB 表现出更好的可扩展性，能有效抑制多用户干扰。
- 在从近场到远场的整个距离范围内（10m - 320m），性能保持稳定。
- 能够适应均匀平面阵列（UPA）等不同的阵列几何结构。

5. 意义与价值 (Significance)

理论突破： 成功将 KKT 最优性条件融入深度学习框架，解决了混合波束成形中非凸约束与 E2E 训练不稳定的矛盾，为 AI 原生无线电设计提供了新的范式。
工程实用： 提出的直接模式方案极大地降低了 XL-MIMO 系统中的导频开销和反馈负担，解决了近场通信中传统方法难以处理球面波和强干扰的痛点。
未来方向： 该框架具有扩展性，可进一步研究宽带 OFDM 系统（处理波束倾斜）、量化相位约束以及硬件损伤（如功放非线性）的补偿。

总结： 该论文提出了一种创新的、基于深度学习的混合波束成形方案，通过变体 MMSE 目标和闭式数字预编码消除技术，实现了在复杂近场环境下的高效、低延迟、高鲁棒性的多用户通信，为 6G XL-MIMO 系统的实际部署提供了强有力的技术支撑。