Resource Allocation for Positive-Rate Covert Communications Using Optimization and Deep Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何在不被察觉的情况下，高效地发送秘密信息”**的故事。

想象一下，你（发送者）想给好朋友（合法接收者）传递一条秘密消息，但有一个讨厌的“监工”（Warden，即窃听者/审查员）正盯着你们。你的目标有两个：

保密：让监工完全感觉不到你们在说话（就像在嘈杂的派对上，两个人用只有彼此能听见的耳语交流）。
高效：在保持隐蔽的同时，尽可能多地说一些有用的话（正速率），而不是只说几个字就闭嘴。

这篇论文就是为了解决**“如何在信号忽强忽弱（瑞利衰落信道）的无线环境中，聪明地分配能量和说话速度，既能传得多，又不会被监工发现”**这个问题。

核心挑战：信号像天气一样多变

无线信号就像天气，有时候好（信号强），有时候坏（信号弱）。

如果发送者能“预知未来”（非因果 CSI）：就像你出门前看了天气预报，知道接下来一周哪天晴哪天雨。你可以提前规划好：晴天多带点伞（多发点能量），雨天少带点。
如果发送者只能“看一步走一步”（因果 CSI）：就像你出门时不知道明天天气，只能看到今天下雨，然后决定今天带伞，明天再随机应变。这更难，因为你的决定会影响未来的选择。

论文提出的两大策略

1. 预知未来版：三步走“精算师”策略

当发送者知道所有未来的信号状况时，作者设计了一套**“三步走”**的数学算法：

第一步：可行性检查（能不能玩？）
先看看有没有机会。如果监工的耳朵太灵（信号比你强），那无论怎么发都会被发现，直接放弃。只有当你的信号比监工好时，游戏才能开始。
第二步：先算个“大概”（凸优化）
先把最难的那个“隐蔽条件”暂时放一边，算出一个理论上最省能量或传得最多的方案。这就像先画个草图。
第三步：微调修正（投影梯度法）
把刚才算出的方案拿回来，检查它是否真的隐蔽。如果不隐蔽，就像给方案加一个“惩罚项”（比如：如果你太吵，就扣你的分数），然后一步步调整，直到找到一个既隐蔽又高效的完美方案。

比喻：这就像你要在一条有严格限速（隐蔽约束）和总油量限制（功率约束）的公路上开车。你先看地图（预知未来），先按最快路线开（忽略限速），发现超速了，就慢慢调整油门和路线，直到既最快又完全合规。

2. 边走边看版：AI 教练（深度强化学习）

当发送者只能看到当前的信号，不知道未来时，传统的数学公式很难用。这时候，作者请来了AI 教练（深度强化学习，DDQN）。

训练过程：AI 教练在虚拟环境中玩了几百万次游戏。它每次尝试不同的发信策略，如果被发现（失败）就扣分，如果成功传了信息且没被发现（成功）就加分。
学会策略：经过大量训练，AI 学会了“直觉”。看到现在的信号好，它就大胆多发；看到信号差或者监工耳朵灵，它就立刻收敛。
解决难题：对于“速率分配”（决定说多快）这种更复杂的问题，AI 虽然不能直接套用公式，但作者发现，把它转化成“能量分配”问题，AI 就能用同样的经验来“近似”解决。

比喻：这就像教一个新手司机开车。新手不知道明天路况，只能靠经验。AI 教练通过无数次模拟驾驶（试错），告诉新手：“刚才那个路口红灯，你踩刹车是对的；下次遇到这种路况，稍微早点减速。”

实验结果：谁更厉害？

作者做了大量模拟实验，结果很直观：

预知未来组：作者的方法比传统的“平均分配”或“简单规则”方法，能传更多的秘密信息，或者在传同样多信息时更省电。
边走边看组：虽然不知道未来会吃亏（性能比预知未来组稍差），但作者训练的 AI 方法，依然比那些死板的传统方法（比如平均分配功率）强得多。
环境越恶劣，优势越明显：当监工（Warden）的监听能力越强时，作者的方法越能体现出“高超的隐蔽技巧”。

总结

这篇论文就像给秘密通信者提供了一套**“智能导航系统”**：

如果你能预知未来，系统会给你规划一条完美的最优路线。
如果你只能边走边看，系统会派一个经验丰富的 AI 老司机带你，虽然不能保证完美，但绝对比你自己瞎开要安全、高效得多。

最终，它让我们能够在复杂的无线环境中，实现**“无密钥、高效率、零察觉”**的秘密通信，为未来的 6G 网络安全提供了重要的理论和技术支持。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Resource Allocation for Positive-Rate Covert Communications Using Optimization and Deep Reinforcement Learning》（基于优化与深度强化学习的正速率隐蔽通信资源分配）的详细技术总结。

1. 研究背景与问题定义

背景：
随着 6G 网络的发展，通信安全面临严峻挑战。传统的物理层安全（PLS）主要关注信息内容的保密，而**隐蔽通信（Covert Communication）旨在隐藏通信行为本身，使窃听者（Warden）无法检测到通信的存在。
经典理论指出，在点对点信道中，若无密钥辅助，隐蔽通信的速率随信道使用次数 $n$ 的增加趋于零（即 $O(\sqrt{n})$ 比特）。为了突破这一限制，实现正速率（Positive-Rate）**隐蔽通信，本文基于信息论最新成果，研究在瑞利块衰落信道下，无需密钥即可实现正速率隐蔽通信的资源分配问题。

核心问题：
在合法接收者（Bob）和窃听者（Warden）的信道状态信息（CSI）已知（非因果或因果）的情况下，如何分配功率或速率，以在满足隐蔽性约束的前提下：

功率分配问题： 在总功率受限的情况下，最大化隐蔽通信的总速率。
速率分配问题： 在满足最低隐蔽速率要求的情况下，最小化总功耗。

系统模型假设：

信道： 块衰落信道，包含 $L$ 个相干块。
CSI 知识：
- 非因果（Non-causal）： 发射端和接收端在传输前已知所有块的 CSI。
- 因果（Causal）： 发射端仅知道当前及之前块的 CSI，需顺序决策。
窃听者： 仅知道 CSI 的统计分布，不知道瞬时 CSI。
隐蔽性约束： 基于相对熵（KL 散度）约束，确保窃听者无法区分“有通信”和“无通信”两种假设。

2. 方法论

本文针对两种 CSI 场景提出了不同的解决方案：

A. 非因果 CSI 场景（优化方法）

针对非凸优化问题，提出了一种新颖的三步法：

可行性检查：
- 首先判断是否存在正速率隐蔽通信的可能。只有当合法信道信噪比（SNR）在某些块上优于窃听者信道（ $h_\ell \ge g_\ell$ ）时，问题才可行。
- 若不可行，直接输出平凡解（零速率或特定分配）。
凸松弛求解：
- 暂时忽略非凸的“低噪声约束”（即合法信道必须比窃听者信道更“干净”的约束 $I(X;Y|S) \ge I(X;Z|S)$ ）。
- 将剩余问题转化为凸优化问题，利用拉格朗日乘子法和二分搜索求解最优功率/速率分配。
惩罚函数法与投影梯度法：
- 若步骤 2 的解不满足非凸约束，则引入惩罚项将非凸约束转化为目标函数的一部分。
- 功率分配： 使用投影梯度上升法（PGA），从凸解出发迭代优化，逐步增加惩罚因子以逼近可行域。
- 速率分配： 使用投影梯度下降法（PGD），结合凸集投影算法（POCS）处理约束，寻找满足总速率要求且功耗最小的解。

B. 因果 CSI 场景（深度强化学习方法）

由于因果场景下决策是顺序进行的，且速率分配问题不满足马尔可夫性，本文采用了深度强化学习（DRL）：

功率分配（MDP 建模）：
- 将问题建模为马尔可夫决策过程（MDP）。
- 状态（State）： 剩余功率、剩余隐蔽余量、累积的隐蔽性度量、当前块的信道增益。
- 动作（Action）： 当前块的功率分配值。
- 奖励（Reward）： 当前块获得的隐蔽速率。
- 算法： 采用双深度 Q 网络（DDQN）。通过经验回放（Experience Replay）和 $\epsilon$ -贪婪策略训练网络，学习最优策略以最大化长期累积奖励。
速率分配（近似求解）：
- 由于速率分配受总速率约束（未来动作受当前状态影响），无法直接建模为 MDP。
- 近似策略： 利用 Jensen 不等式将总速率约束转化为对剩余“等效功率”的约束。
- 利用训练好的功率分配 DDQN 网络来近似求解速率分配问题。通过计算当前剩余速率所需的等效功率，调用功率分配网络输出动作，再反推速率。

3. 主要贡献

问题建模创新： 首次针对块衰落信道上的无密钥正速率隐蔽通信，同时建立了功率分配和速率分配的非凸优化模型，并考虑了非因果和因果两种 CSI 场景。
非因果场景算法： 提出了一种通用的三步法（可行性检查 + 凸松弛 + 惩罚梯度法），有效解决了包含非凸“低噪声约束”的优化难题。
因果场景算法：
- 将因果功率分配问题成功转化为 MDP，并利用 DDQN 实现了高效求解。
- 创造性地提出利用功率分配网络近似解决非马尔可夫的因果速率分配问题，填补了该领域的空白。
性能验证： 通过大量仿真，验证了所提算法在不同信道条件和隐蔽性约束下的优越性。

4. 仿真结果与性能分析

仿真对比了本文提出的算法与基准算法（如“平凡解”、“凸松弛解”、“平均分配”等）：

非因果功率分配： 提出的三步法在总隐蔽速率上显著优于基准方法，特别是在窃听者信道条件较好时，优势更加明显。
非因果速率分配： 在满足相同速率要求下，提出的算法消耗的总功率最低，且可行性概率（即能找到解的概率）远高于基准方法。
因果功率分配： DDQN 方案的性能优于传统的“平均分配”和“平凡”因果策略，且随着窃听者信道质量提升，其性能增益扩大。虽然因果场景相比非因果场景存在速率损失，但 DDQN 有效缓解了这一问题。
因果速率分配： 基于 DDQN 的近似方法在可行性和功耗方面均优于基准方法，证明了利用功率网络解决速率分配问题的有效性。
隐蔽性约束影响： 随着隐蔽性约束参数 $\delta$ 变小（要求更严格），所有方案的速率性能下降或功耗增加，但本文算法始终保持最优。

5. 意义与价值

理论突破： 解决了在块衰落信道下，无密钥实现正速率隐蔽通信的资源分配难题，扩展了信息论隐蔽通信的适用范围。
技术融合： 成功将经典优化理论（凸优化、KKT 条件、惩罚函数法）与前沿人工智能技术（深度强化学习、DDQN）相结合，为处理复杂的非凸、非马尔可夫通信资源分配问题提供了新范式。
实际应用： 提出的算法无需密钥交换，适用于对隐蔽性要求极高的军事、物联网及下一代 6G 通信场景，特别是在信道状态信息受限（因果）的实际系统中具有极高的实用价值。

综上所述，该论文通过严谨的数学推导和创新的算法设计，为高隐蔽性、高效率的无线通信系统提供了切实可行的资源分配方案。

Resource Allocation for Positive-Rate Covert Communications Using Optimization and Deep Reinforcement Learning

核心挑战：信号像天气一样多变

论文提出的两大策略

1. 预知未来版：三步走“精算师”策略

2. 边走边看版：AI 教练（深度强化学习）

实验结果：谁更厉害？

总结

1. 研究背景与问题定义

2. 方法论

A. 非因果 CSI 场景（优化方法）

B. 因果 CSI 场景（深度强化学习方法）

3. 主要贡献

4. 仿真结果与性能分析

5. 意义与价值

类似论文

Mathematical Proof

On the intrinsic geometry of polyhedra: Convex polygon coordinates

A finite element continuous data assimilation framework for a Navier--Stokes--Cahn--Hilliard system

An efficient predictor-corrector approach with orthogonal spline collocation finite element technique for FitzHugh-Nagumo problem

The structure of group-labeled graphs forbidding an immersion