Cooperative Deep Reinforcement Learning for Fair RIS Allocation

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der ungleiche Kuchen

Stell dir vor, du hast zwei Bäcker (die Funkzellen oder Basisstationen), die in einer Stadt Brot (die Internetdaten) backen.

Bäcker A hat eine riesige Schlange vor dem Laden. Er ist völlig überlastet, die Leute warten ewig, und das Brot wird kalt.
Bäcker B hat nur ein paar Kunden. Er hat viel Zeit und kann sich entspannt backen.

Normalerweise würde Bäcker A einfach mehr Leute anstellen, aber in der Funkwelt ist das schwierig. Hier kommen die RIS (Reconfigurable Intelligent Surfaces) ins Spiel.

Was sind RIS? Die "magischen Spiegel"

Stell dir RIS als eine Wand voller winziger, programmierbarer Spiegel vor. Diese Spiegel können das Funk-Signal (das Licht) so lenken, dass es genau dorthin reflektiert wird, wo es gebraucht wird.

Wenn ein Spiegel bei Bäcker A steht, kann er das Signal um eine Ecke lenken, damit die Kunden in der dunklen Gasse besser empfangen haben.
Das Problem: Es gibt nur eine begrenzte Anzahl dieser Spiegel. Und sie stehen genau dort, wo sich die Gebiete der beiden Bäcker überschneiden. Beide wollen die Spiegel für sich haben.

Der alte Weg: Der lauteste Schreier gewinnt

Bisher haben die Bäcker einfach gegeneinander geboten. Wer mehr Geld hat oder aggressiver bietet, bekommt die Spiegel. Das Ergebnis? Bäcker A (der Überlastete) verliert oft, weil er vielleicht nicht genug Budget hat oder die Strategie falsch liegt. Bäcker B (der mit wenig Arbeit) behält die Spiegel, obwohl er sie gar nicht so dringend braucht. Das ist unfair.

Die neue Lösung: Ein kluger Schiedsrichter mit einem "Fairness-Modus"

Die Autoren dieses Papers haben eine neue Idee entwickelt, die wie ein intelligenter Auktionator funktioniert, der von einer KI gesteuert wird.

1. Das Auktions-Spiel

Stell dir vor, die Spiegel werden nicht einfach verkauft, sondern in Runden versteigert. Der Preis steigt langsam. Jeder Bäcker muss entscheiden: "Will ich diesen Spiegel für diesen Preis haben?"

2. Die KI-Lernkurve (Deep Reinforcement Learning)

Die Bäcker sind keine dummen Roboter mehr. Sie sind wie Schachspieler, die durch tausende von Spielen lernen, wie man gewinnt.

Sie lernen nicht nur, wie viel Brot sie selbst verkaufen können (Effizienz).
Sie lernen auch, wie es den anderen geht (Fairness).

3. Der "Fairness-Hebel" (Der magische Knopf)

Das ist der Clou: Der Schiedsrichter (die zentrale KI) gibt den Bäckern einen Hinweis, wie es den anderen geht.

Wenn Bäcker A sehr schlecht dasteht (viele wartende Kunden), bekommt er vom Schiedsrichter einen Bonus oder eine "Ermunterung". Er darf aggressiver bieten, auch wenn es etwas riskant ist.
Wenn Bäcker B schon gut dasteht, wird er etwas zurückhaltender gebeten.

Es ist, als würde ein Trainer einem schwachen Sportler sagen: "Du darfst heute etwas mehr Kraft einsetzen, weil du im Hintertreffen bist!", während der starke Sportler aufgefordert wird, sich zu mäßigen.

Was passiert dabei?

Durch dieses "kooperative Lernen" passiert etwas Magisches:

Der Überlastete gewinnt: Bäcker A bekommt mehr Spiegel, weil die KI ihm hilft, die richtigen Momente zum Bieten zu finden.
Der Starke verliert nicht viel: Bäcker B gibt zwar ein paar Spiegel ab, aber er hat immer noch genug, um gut zu arbeiten. Er verliert nicht viel an Gesamtleistung.
Das Ergebnis: Die Leute in der dunklen Gasse (die am schlechtesten bedienten Nutzer) bekommen plötzlich schnelles Internet. Die Gesamtmenge an Brot, das in der Stadt verkauft wird, bleibt fast gleich, aber es wird viel gerechter verteilt.

Die Analogie zum Schluss

Stell dir vor, du hast eine Gruppe von Freunden, die ein Spiel spielen.

Ohne die KI: Die Starken gewinnen immer, die Schwachen verlieren immer. Das Spiel ist langweilig.
Mit der KI: Das Spiel hat einen "Helfer-Modus". Wenn jemand zurückfällt, bekommt er einen kleinen Schubser (die Fairness-Information), damit er mithalten kann. Die Starken werden nicht gestoppt, aber sie müssen sich ein bisschen mehr anstrengen, um zu gewinnen.

Das Fazit:
Die Forscher haben gezeigt, dass man durch eine intelligente Kombination aus Auktionen (Wettbewerb) und Lern-KI (Zusammenarbeit) das Internet nicht nur schneller, sondern auch gerechter machen kann. Niemand muss komplett leer ausgehen, und die Schwächsten bekommen endlich eine Chance.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert die Herausforderung der Ressourcenallokation von Rekonfigurierbaren Intelligenter Oberflächen (RISs) in multi-zellularen drahtlosen Netzwerken (insbesondere im Hinblick auf 6G).

Hintergrund: RISs werden als geteilte Infrastruktur betrachtet, die von einem unabhängigen Anbieter verwaltet und dynamisch an konkurrierende Basisstationen (BS) vermietet wird.
Kernproblem: In Szenarien mit ungleicher Nutzerlast (asymmetrische Multi-Cell-Szenarien) führt eine rein effizienzorientierte Allokation dazu, dass Basisstationen mit hoher Auslastung (überlastete Zellen) benachteiligt werden, während gut versorgte Zellen die Ressourcen monopolisieren. Dies verschärft die Leistungsungleichheit, insbesondere am Zellrand.
Ziel: Entwicklung eines Mechanismus, der RIS-Ressourcen fairer verteilt, um die Leistung der am schlechtesten bedienten Nutzer zu verbessern, ohne die Gesamtdurchsatzleistung des Systems drastisch zu senken.

2. Methodik

Das vorgeschlagene Framework kombiniert Auktionsmechanismen mit kooperativem Multi-Agenten-Reinforcement-Learning (MARL).

A. Systemmodell und Kanalannahmen

Szenario: Downlink mit mehreren Basisstationen, Nutzern und RISs.
Kanalmodell:
- Direkte BS-Nutzer-Verbindungen sind stark abgeschattet (NLOS) und werden durch Rayleigh-Fading modelliert.
- BS-RIS-Verbindungen haben eine starke Sichtverbindung (LOS) und werden durch Richtantennen-Response-Vektoren modelliert.
- RIS-Nutzer-Verbindungen folgen einem Rician-Fading-Modell (Kombination aus LOS und NLOS).
Signalverarbeitung: Die Basisstationen bilden Strahlen (Beamforming) primär auf die RISs aus. Da die schnellen NLOS-Komponenten nicht zuverlässig geschätzt werden können, erfolgt die Phasenanpassung nur für die LOS-Komponenten.

B. Auktionsformat

Es wird eine simultane steigende Auktion (Simultaneous Ascending Auction) verwendet.
Die Auktion läuft in diskreten Runden ab. Ein Auktionator erhöht den Preis für alle RISs schrittweise.
Basisstationen geben Binärgebote ab. RISs mit mehreren Geboten werden in der nächsten Runde weiterversteigert; RISs mit einem Gebot werden zugewiesen.
Eine Aktivitätsregel verhindert strategisches Wiedereinsteigen, um Präferenzen stabil zu halten.

C. Reinforcement Learning Ansatz (MARL)

Jede Basisstation agiert als autonomer Agent, der eine Deep Reinforcement Learning (DRL)-Strategie lernt (implementiert mit PPO – Proximal Policy Optimization).

Beobachtungszustand (Observation): Jeder Agent erhält Informationen über den aktuellen Preis, sein Budget, die marginalen Nutzenwerte potenzieller RISs und einen Fairness-Weight ( $w^{(b)}_t$ ).
Fairness-Mechanismus: Ein zentral berechneter Fairness-Indikator wird in die Beobachtung integriert. Er basiert auf der relativen Leistung (durchschnittliche erreichbare Rate) der Basisstationen im Vergleich zum Netzwerkdurchschnitt.
- Formel: $w^{(b)}_t \propto \frac{Util^{(b)}}{\sum Util^{(b')}}$ .
- Ein Parameter $\gamma$ steuert die Stärke der Fairness. Höhere Werte begünstigen schwächere Zellen.
Belohnungsfunktion (Reward): Die Belohnung besteht aus drei Komponenten:
1. Erwarteter Nutzenzuwachs durch Gebote.
2. Kosten der Gebote (Preis).
3. Strafe für Budgetüberschreitung.
- Wichtig: Die kostenbezogenen Terme werden mit dem Fairness-Weight multipliziert. Dies bestraft aggressive Gebote starker Zellen stärker und erlaubt schwächeren Zellen aggressiver zu bieten, um die Ressourcenverteilung auszugleichen.
Schätzung: Da keine instantane Kanalzustandsinformation (CSI) vor der Allokation vorliegt, werden SINR und Nutzen basierend auf makroskopischen Kanalparametern und asymptotischen Eigenschaften großer Antennenarrays geschätzt.

3. Wichtige Beiträge

Fairness-bewusste MARL-Strategie: Einführung eines neuartigen Ansatzes, bei dem Basisstationen ihre Gebotsstrategien nicht nur basierend auf eigenem Gewinn, sondern auch basierend auf einem zentralen Fairness-Indikator anpassen. Dies ermöglicht eine implizite Koordination ohne direkten Austausch von Nachrichten zwischen den Basisstationen.
Integration in Auktionsmechanismen: Die Kombination von steigenden Auktionen mit DRL, um in dynamischen Umgebungen optimale Gebotsstrategien zu lernen, die sowohl Effizienz als auch Gleichheit berücksichtigen.
Tunabler Trade-off: Die Möglichkeit, durch den Parameter $\gamma$ den Kompromiss zwischen Gesamtdurchsatz (Effizienz) und Mindestnutzerrate (Fairness) explizit zu steuern.

4. Ergebnisse der Simulationen

Die Simulationen basieren auf einem Szenario mit zwei Basisstationen, wobei eine stark überlastet ist (doppelt bis dreifach so viele Nutzer wie die andere).

Effizienz-Fairness-Trade-off:
- Mit steigendem $\gamma$ verbessert sich die Mindestnutzerrate der überlasteten Basisstation (BS0) um ca. 34 %.
- Der Gesamtdurchsatz (Sum Rate) des Netzwerks sinkt dabei nur moderat (weniger als 7 %).
- Dies zeigt, dass signifikante Verbesserungen für benachteiligte Nutzer mit minimalem Verlust an Gesamteffizienz erreichbar sind.
Fairness-Metrik (Atkinson-Index):
- Der Atkinson-Ungleichheitsindex nimmt mit steigendem $\gamma$ monoton ab, was eine deutlich gerechtere Verteilung der Datenraten über alle Nutzer hinweg bestätigt.
Allokationsverhalten:
- Bei höheren Fairness-Werten werden RISs systematisch von der gut versorgten Zelle zur überlasteten Zelle verschoben.
- Die Anzahl der unzugewiesenen RISs sinkt, da die schwächere Zelle aggressiver bietet.
- Die Gesamtausgaben der Basisstationen bleiben über den Bereich von $\gamma$ hinweg relativ konstant, was auf eine stabile wirtschaftliche Effizienz hindeutet.

5. Bedeutung und Ausblick

Praktische Relevanz: Das Paper bietet einen skalierbaren und kosteneffizienten Ansatz für das Management von RIS-Ressourcen in zukünftigen 6G-Netzen, wo reine Optimierung des Durchsatzes oft zu unfairen Servicebedingungen führt.
Innovation: Es demonstriert, wie KI-gestützte Koordination (durch geteilte Fairness-Informationen) komplexe Ressourcenallokationsprobleme lösen kann, ohne eine zentrale, rechenintensive Optimierung oder direkten Peer-to-Peer-Kommunikationsaufwand zwischen den Zellen zu benötigen.
Zukunftsperspektiven: Die Autoren sehen Potenzial in der Erweiterung auf größere Netzwerktopologien, die Untersuchung anderer Auktionsformate (z. B. versiegelte Gebote) und die Anpassung an nicht-stationäre Umgebungen mit zeitlich variierenden Nutzermustern.

Zusammenfassend stellt die Arbeit einen vielversprechenden Schritt dar, um die Lücke zwischen technischer Effizienz und sozialer Gerechtigkeit (Fairness) in der Ressourcenverwaltung drahtloser Netzwerke zu schließen.