Resource Allocation for Positive-Rate Covert Communications Using Optimization and Deep Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der wissenschaftlichen Arbeit, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Formeln, aber mit ein paar bildhaften Vergleichen.

Das große Ziel: Unsichtbar bleiben, während man redet

Stellen Sie sich vor, Sie und Ihr Freund wollen ein geheimes Gespräch führen. Aber es gibt einen Lauscher (nennen wir ihn „Walter"), der genau aufpasst, ob überhaupt jemand redet.

In der klassischen Welt der sicheren Kommunikation versuchen wir, den Inhalt der Nachricht zu verschlüsseln, damit Walter sie nicht versteht. Aber in diesem Papier geht es um etwas noch Tückischeres: Wir wollen, dass Walter gar nicht merkt, dass wir überhaupt reden. Das nennt man verdeckte Kommunikation (Covert Communication).

Das Problem: Wenn Sie zu laut reden, merkt Walter es sofort. Wenn Sie zu leise reden, versteht Ihr Freund nichts. Die Wissenschaftler haben herausgefunden, dass man unter bestimmten Bedingungen trotzdem eine positive Rate (also eine echte, messbare Menge an Informationen) senden kann, ohne dass Walter es bemerkt.

Die zwei Hauptaufgaben: Wie viel Energie und wie viel Zeit?

Die Forscher haben zwei große Probleme gelöst, die wie zwei verschiedene Strategien für Ihr geheimes Gespräch funktionieren:

Die Energie-Strategie (Power Allocation):
- Die Frage: „Wir haben nur eine begrenzte Batterie (Energie). Wie verteilen wir diese Energie über die Zeit, damit wir so viel wie möglich sagen können, ohne dass Walter es merkt?"
- Die Analogie: Stellen Sie sich vor, Sie haben nur 100 Kerzen. Walter ist ein sehr sensibler Rauchmelder. Wenn Sie alle 100 Kerzen auf einmal anzünden, wird der Alarm losgehen. Wenn Sie sie alle in der ersten Minute anzünden, ist es auch zu viel. Die Lösung ist, die Kerzen clever über den ganzen Abend zu verteilen: Manchmal eine kleine Flamme, manchmal gar keine, immer abhängig davon, wie stark der Wind (der Kanal) gerade weht.
Die Zeit-Strategie (Rate Allocation):
- Die Frage: „Wir müssen eine bestimmte Menge an Geheimnissen (z. B. 1000 Wörter) übermitteln. Wie viel Energie müssen wir dafür mindestens verbrauchen?"
- Die Analogie: Sie wollen eine bestimmte Anzahl an Briefen schreiben. Wie viel Tinte (Energie) brauchen Sie mindestens, damit die Briefe lesbar sind, aber Walter nicht merkt, dass Sie schreiben? Hier wollen wir die Tinte sparen.

Die zwei Szenarien: Alles wissen vs. Schritt für Schritt

Die Forscher haben zwei Situationen betrachtet, wie viel Wissen der Absender über den „Wetterbericht" (den Kanal) hat:

1. Der Allwissende (Nicht-kausaler CSI)

Hier kennt der Absender den gesamten Wetterbericht für den ganzen Abend im Voraus.

Die Lösung: Die Forscher haben einen cleveren Drei-Schritte-Plan entwickelt.
- Schritt 1: Prüfen, ob das überhaupt möglich ist (ist der Freund lauter als Walter?).
- Schritt 2: Ein einfacher, mathematisch „schöner" Plan wird erstellt (wie ein perfektes Rezept).
- Schritt 3: Da das Rezept manchmal nicht ganz passt (weil die Mathematik nicht perfekt ist), wird es mit einer Art „Feinschliff" (einem Algorithmus namens Projected Gradient Ascent) korrigiert, bis es perfekt funktioniert.
- Ergebnis: Das funktioniert sehr gut und ist effizient.

2. Der Entdecker (Kausaler CSI)

Hier kennt der Absender den Wetterbericht nur für den aktuellen Moment. Er weiß nicht, was in der nächsten Minute passiert. Er muss Entscheidungen treffen, ohne die Zukunft zu kennen.

Die Lösung: Hier kommt Künstliche Intelligenz (Deep Reinforcement Learning) ins Spiel.
- Die Analogie: Stellen Sie sich vor, Sie spielen ein Videospiel (wie ein Rennspiel), bei dem Sie nicht wissen, welche Kurven als nächstes kommen. Sie spielen das Spiel millionenfach gegen sich selbst. Jedes Mal, wenn Sie eine gute Entscheidung treffen (wenig Energie, aber Nachricht kommt an), bekommen Sie Punkte. Jedes Mal, wenn Walter es merkt, verlieren Sie Punkte.
- Nach dem vielen Spielen lernt die KI (ein sogenanntes DDQN-Netzwerk), wie man am besten fährt. Sie entwickelt eine Intuition: „Wenn der Wind stark ist, drücke ich das Gaspedal ein wenig; wenn er ruhig ist, spare ich."
- Für die zweite Aufgabe (Zeit sparen) nutzen sie diese trainierte KI, um eine gute Schätzung zu machen, auch wenn die Aufgabe eigentlich nicht perfekt in das Spiel-Modell passt.

Warum ist das wichtig?

Keine Schlüssel nötig: Normalerweise braucht man geheime Schlüssel, um Dinge zu verstecken. Hier reicht die clevere Verteilung der Energie, um unsichtbar zu bleiben.
Effizienz: Die neuen Methoden verbrauchen weniger Energie als alte Tricks und schaffen es, mehr Informationen zu senden, ohne entdeckt zu werden.
Robustheit: Selbst wenn Walter einen besseren „Hörgerät" hat als Ihr Freund, finden diese Methoden einen Weg, das Gespräch zu führen.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, wie man geheime Nachrichten so clever überträgt, dass ein Lauscher sie nicht einmal bemerkt – entweder durch einen perfekten Vorausplan oder durch eine KI, die durch viel Üben lernt, wie man sich in Echtzeit am besten verhält.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Resource Allocation for Positive-Rate Covert Communications Using Optimization and Deep Reinforcement Learning" auf Deutsch:

1. Problemstellung

Das Paper adressiert das Problem der schlüssellosen, positiven-rate verdeckten Kommunikation (Covert Communication) in Rayleigh-Block-Fading-Kanälen.

Ziel: Ein Sender (Alice) soll eine Nachricht an einen legitimen Empfänger (Bob) senden, ohne dass ein Wächter (Willie) die bloße Existenz der Kommunikation erkennt.
Herausforderung: Klassische informationstheoretische Ergebnisse besagen, dass in einem Punkt-zu-Punkt-Kanal nur $O(\sqrt{n})$ Bits in $n$ Kanalnutzungsschritten verdeckt übertragen werden können, was zu einer Rate von null führt, wenn $n \to \infty$ . Um eine positive Rate zu erreichen, müssen zusätzliche Annahmen oder Strategien genutzt werden.
Szenario:
- Der Sender und Bob kennen den Kanalzustandsinformation (CSI) für den legitimen Kanal ( $H$ ) und den Wächter-Kanal ( $G$ ).
- Der Wächter kennt nur die statistische Verteilung des CSI, nicht die instantanen Werte.
- Es wird kein externer Schlüssel und kein Störsender (Jammer) verwendet.
- Zwei Optimierungsprobleme werden betrachtet:
  1. Leistungs-Allokation: Maximierung der Summe der verdeckten Raten unter einer maximalen Leistungsbegrenzung.
  2. Raten-Allokation: Minimierung des Leistungsverbrauchs unter einer Mindest-Raten-Bedingung.

2. Methodik und Systemmodell

Das Systemmodell basiert auf diskreten gedächtnislosen Kanälen (DMC) mit Block-Fading. Die Verdecktheitsbedingung wird durch die Kullback-Leibler-Divergenz zwischen der Verteilung bei Kommunikation und ohne Kommunikation begrenzt ( $D(P_Z || Q_0) \le \delta$ ).

Das Paper unterscheidet zwei Fälle bezüglich der Verfügbarkeit der CSI:

A. Nicht-kausale CSI (Non-causal CSI)

Der Sender kennt die Kanalzustände für alle Blöcke $L$ im Voraus.

Optimierungsformulierung: Die Probleme werden als nicht-konvexe Optimierungsprobleme formuliert, da eine „weniger verrauschte" Bedingung (Less-Noisy Constraint) erfüllt sein muss ( $I(X;Y|S) \ge I(X;Z|S)$ ), um eine positive Rate ohne Schlüssel zu garantieren.
Lösungsansatz (Drei-Schritte-Methode):
1. Überprüfung der Machbarkeit: Es wird geprüft, ob überhaupt ein positiver verdeckter Kanal existiert (d.h. ob es Blöcke gibt, bei denen $h_\ell \ge g_\ell$ ).
2. Konvexe Relaxierung: Die nicht-konvexe „weniger verrauschte" Bedingung wird zunächst ignoriert, um ein konvexes Problem zu lösen (mittels Lagrange-Multiplikatoren und Bisektions-Suche).
3. Projizierter Gradienten-Ascent/Descent (PGA/PGD): Falls die Lösung des konvexen Problems die nicht-konvexe Bedingung verletzt, wird diese als Strafterm (Penalty Term) in die Zielfunktion integriert. Ein projizierter Gradienten-Algorithmus wird verwendet, um von der konvexen Lösung ausgehend eine zulässige Lösung für das ursprüngliche nicht-konvexe Problem zu finden.

B. Kausale CSI (Causal CSI)

Der Sender kennt die Kanalzustände nur für die aktuellen und vergangenen Blöcke, nicht für zukünftige.

Leistungs-Allokation: Das Problem wird als Markov-Entscheidungsprozess (MDP) formuliert.
- Zustand: Verbleibende Leistung, verbleibender Verdecktheits-Margin, kumulierte Differenz der gegenseitigen Informationen und aktuelle Kanalzustände.
- Aktion: Die zugewiesene Leistung $P_\ell$ .
- Belohnung: Die erzielte verdeckte Rate.
- Lösung: Ein Double Deep Q-Network (DDQN) wird trainiert, um die optimale Policy zu lernen. Dies ermöglicht eine sequenzielle Entscheidungsfindung ohne Kenntnis der Zukunft.
Raten-Allokation: Dieses Problem ist nicht-Markovisch, da die zukünftigen Aktionen durch die aktuelle Rest-Rate begrenzt sind (eine „Rückwärts"-Beschränkung).
- Approximation: Das Raten-Problem wird approximativ in ein Leistungs-Problem umgewandelt, indem die verbleibende Ratenanforderung in eine äquivalente verbleibende Leistungsanforderung umgerechnet wird (unter Nutzung von Jensen-Ungleichungen und Erwartungswerten).
- Lösung: Das bereits für die Leistungs-Allokation trainierte DDQN wird wiederverwendet, um die Raten zu bestimmen.

3. Hauptbeiträge

Erste Analyse und Optimierung: Das Paper ist laut Autoren das erste, das schlüssellose verdeckte Kommunikation über Fading-Kanäle analysiert und optimiert, basierend auf informationstheoretischen Ergebnissen für DMCs.
Nicht-konvexe Optimierung: Entwicklung von effizienten Drei-Schritte-Algorithmen (Feasibility Check, Convex Relaxation, Penalty Method) zur Lösung der nicht-konvexen Probleme bei nicht-kausaler CSI.
Deep Reinforcement Learning (DRL): Formulierung des kausalen Leistungs-Allokationsproblems als MDP und dessen Lösung mittels DDQN.
Approximation für Raten-Allokation: Ein innovativer Ansatz, um das nicht-Markovische Raten-Problem unter kausaler CSI durch Umwandlung in ein Leistungs-Problem und Nutzung des trainierten DQN zu lösen.
Umfassende Simulationen: Detaillierte Vergleichsstudien zwischen den vorgeschlagenen Methoden und verschiedenen Baselines (triviale Zuweisung, konvexe Relaxierung, durchschnittliche Zuweisung).

4. Ergebnisse

Die Simulationsergebnisse zeigen folgende Erkenntnisse:

Leistung: Die vorgeschlagenen Methoden (sowohl die Optimierung bei nicht-kausaler CSI als auch das DDQN bei kausaler CSI) übertreffen konsistent alle Baseline-Methoden.
- Bei der Leistungs-Allokation wird eine höhere Summe verdeckter Raten erreicht.
- Bei der Raten-Allokation wird der gleiche Ziel-Ratenwert mit geringerem Leistungsverbrauch erreicht.
Robustheit: Der Vorteil der vorgeschlagenen Methoden wird besonders deutlich, wenn der Wächter einen besseren Kanal hat als der legitime Empfänger.
Kausalitätsverlust: Wie erwartet führt die kausale CSI zu einem gewissen Leistungsverlust im Vergleich zur nicht-kausalen CSI (da keine Vorhersage zukünftiger Kanäle möglich ist), aber das DDQN kompensiert dies effektiv im Vergleich zu einfachen kausalen Strategien.
Einfluss von $\delta$ : Eine strengere Verdecktheitsbedingung (kleineres $\delta$ ) führt natürlich zu niedrigeren Raten bzw. höherem Leistungsverbrauch, aber die vorgeschlagenen Algorithmen bleiben den Baselines überlegen.
Machbarkeit: Die vorgeschlagenen Methoden zeigen eine signifikant höhere Wahrscheinlichkeit, eine machbare Lösung zu finden, insbesondere bei schwierigen Kanalbedingungen.

5. Bedeutung

Dieses Paper ist von erheblicher Bedeutung für die Entwicklung sicherer 6G-Netze und zukünftiger drahtloser Systeme.

Praktische Relevanz: Es löst das Problem der Ressourcenallokation in realistischen Fading-Umgebungen ohne die Annahme von externen Störern oder geteilten Schlüsseln.
Methodischer Fortschritt: Die Kombination aus klassischer nicht-konvexer Optimierung (für den Offline-Fall) und Deep Reinforcement Learning (für den Online-Fall) bietet einen robusten Rahmen für adaptive verdeckte Kommunikationssysteme.
Theoretische Basis: Es überträgt theoretische Ergebnisse aus der Informationstheorie (DMC) erfolgreich auf praktische Block-Fading-Szenarien und zeigt, wie positive Raten auch ohne Schlüssel erreicht werden können, wenn die Kanalbedingungen geeignet genutzt werden.

Zusammenfassend bietet das Paper einen vollständigen Lösungsansatz für die Ressourcenallokation in verdeckten Kommunikationssystemen, der sowohl theoretisch fundiert als auch durch moderne KI-Methoden für dynamische Umgebungen optimiert ist.