Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie leben in einer Stadt mit zwei großen Funktürmen (den Basisstationen), die für die Internetversorgung zuständig sind. Zwischen diesen Türmen gibt es eine „tote Zone" – einen Bereich, wo das Signal schwach ist und die Leute keine gute Verbindung haben.

Um dieses Problem zu lösen, hat die Stadt an den Rändern dieser Zonen viele kleine, intelligente Spiegel installiert. Diese nennt man RIS (Reconfigurable Intelligent Surfaces). Sie können wie magische Spiegel wirken: Wenn ein Funksignal auf sie trifft, können sie es so umlenken, dass es genau zu den Leuten in der schwachen Zone gelangt, statt einfach zu verschwinden.

Das Problem ist: Wer darf welche Spiegel benutzen? Und wie bezahlt man dafür?

Hier kommt die Idee des Autors ins Spiel, die wir uns wie einen Auktionsmarkt vorstellen können.

1. Der Markt für Spiegel (Die Auktion)

Stellen Sie sich vor, die Spiegel gehören nicht den Funktürmen, sondern einem unabhängigen Vermieter. Die beiden Funktürme (die Basisstationen) müssen nun um die besten Spiegel kämpfen.

Wie funktioniert das? Es ist wie eine Auktion, bei der der Preis für jeden Spiegel langsam steigt.
Die Entscheidung: Jeder Funkturm muss schnell entscheiden: „Ist dieser Spiegel gerade noch wert, dass ich biete?" oder „Ist er zu teuer für den Nutzen, den er bringt?"
Das Ziel: Jeder Turm will so viele gute Spiegel wie möglich bekommen, um seine Kunden glücklich zu machen, aber er darf sein Budget nicht sprengen.

2. Die Intelligenz dahinter (KI und Lernen)

Früher hätten die Funktürme einfache Regeln benutzt, um zu entscheiden, ob sie bieten. Zum Beispiel: „Ich biete immer auf die Spiegel, die am nächsten zu mir sind." Das ist aber nicht immer die beste Strategie. Vielleicht ist ein entfernter Spiegel viel wertvoller, weil er eine besonders schwierige Ecke abdeckt.

Hier kommt Deep Reinforcement Learning (DRL) ins Spiel. Das ist eine Art künstliche Intelligenz, die wie ein junger, lernender Spieler funktioniert:

Versuch und Irrtum: Die KI-Spieler (die Funktürme) probieren in vielen Simulationen verschiedene Strategien aus. Mal bieten sie aggressiv, mal sparen sie.
Lernen: Wenn eine Strategie gut funktioniert (viele Kunden haben Internet, das Budget reicht), bekommt die KI eine „Belohnung". Wenn sie zu viel ausgibt oder schlechte Spiegel kauft, bekommt sie eine „Strafe".
Das Ergebnis: Nach vielen Spielen lernt die KI, genau die richtigen Spiegel zum richtigen Preis zu kaufen. Sie wird viel schlauer als die einfachen Regeln (Heuristiken).

3. Der „Gier-Regler" (Der Parameter Beta)

Das Coolste an diesem System ist ein kleiner Schalter, den die Autoren eingeführt haben. Nennen wir ihn den „Gier-Regler".

Regler auf „Gierig": Die KI ist sehr vorsichtig. Sie bietet nur auf die allerbesten Spiegel, wenn sie sicher sind, dass es sich lohnt. Das kostet wenig Geld, aber vielleicht bekommen sie nicht ganz so viele Spiegel.
Regler auf „Mutig": Die KI ist bereit, mehr zu zahlen, um mehr Spiegel zu bekommen. Das bringt mehr Internetgeschwindigkeit für die Kunden, kostet aber mehr Geld.

Mit diesem Regler können die Netzbetreiber selbst entscheiden: „Heute wollen wir sparen" oder „Heute wollen wir maximale Leistung".

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie sind ein Koch (der Funkturm), der für viele Gäste (die Nutzer) kochen will. Sie haben eine Küche mit vielen speziellen Zutaten (den RIS-Spiegeln), die aber von einem Lieferanten gemietet werden müssen.

Ohne KI: Sie kaufen einfach die Zutaten, die am nächsten zum Laden liegen, egal ob sie gut schmecken oder teuer sind.
Mit KI: Sie haben einen Küchenchef, der gelernt hat, genau die Zutaten zu finden, die das Gericht am besten machen, ohne Ihr Geld zu verschwenden. Er weiß genau, wann er sagen muss: „Das ist zu teuer für den Geschmack, den es bringt" oder „Das ist ein Schnäppchen, das müssen wir sofort nehmen!"

Das Fazit der Studie:
Die Forscher haben gezeigt, dass diese intelligente, lernende Auktionsmethode viel besser funktioniert als alte, starre Regeln. Sie sorgt dafür, dass das Internet in den schwachen Zellen schneller ist und das Geld der Netzbetreiber effizienter eingesetzt wird. Es ist ein Schritt in Richtung des zukünftigen 6G-Internets, wo Ressourcen dynamisch und fair verteilt werden.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papiers auf Deutsch:

Titel

Auktionsbasierte RIS-Allokation mit DRL: Steuerung des Kosten-Leistungs-Trade-offs

1. Problemstellung

Die Arbeit adressiert die effiziente Zuteilung von Reconfigurable Intelligent Surfaces (RIS) in einem multi-cellaren drahtlosen Netzwerk. In Szenarien, in denen mehrere Basisstationen (BS) um die Kontrolle über geteilte RIS-Einheiten an den Zellrändern konkurrieren, entsteht ein Ressourcenallokationsproblem.

Herausforderung: RISs werden von einem unabhängigen Betreiber bereitgestellt und müssen dynamisch an die Basisstationen vergeben werden, die den größten Nutzen daraus ziehen. Eine statische Zuweisung ist ineffizient.
Ziel: Entwicklung eines Mechanismus, der fair und effizient entscheidet, welche Basisstation welche RISs erhält, unter Berücksichtigung von Kosten (Budget) und Leistungssteigerung (Spektraleffizienz).
Kontext: Die Basisstationen müssen ihre Gebote basierend auf makroskopischen Kanalparametern schätzen, da eine vollständige Kanalzustandsinformation (CSI) vor der Konfiguration der RISs nicht verfügbar ist.

2. Methodik

A. Systemmodell und Kanalschätzung

Umgebung: Ein Zwei-Zell-Szenario mit $N_{BS}$ Basisstationen, $N_{UE}$ Nutzern und $N_{RIS}$ RIS-Einheiten.
Kanalmodell: Es werden direkte Kanäle (NLOS, stark abgeschattet) und RIS-unterstützte Kanäle modelliert. Die RIS-Kanäle bestehen aus BS-zu-RIS (starker LOS) und RIS-zu-Nutzer (Rician-Modell).
SINR-Schätzung: Da keine Echtzeit-CSI vorliegt, wird die Signal-zu-Interferenz-und-Rausch-Verhältnis (SINR) basierend auf makroskopischen Parametern (Pfadverlust, Rician-K-Faktor, Winkel) geschätzt. Dabei wird die große Anzahl an Antennen und RIS-Elementen genutzt, um Erwartungswerte für die Leistung zu approximieren (Gesetz der großen Zahlen).
Nutzenfunktion: Der Nutzen einer RIS-Allokation wird als prozentuale Verbesserung der Summenrate im Vergleich zum Szenario ohne RIS definiert.

B. Auktionsmechanismus

Format: Es wird ein simultaner steigender Auktionsmechanismus („Japanese Forward Auction") verwendet.
Ablauf: In jeder Runde erhöht der Auktionator den Preis für jede RIS um einen festen Betrag $\Delta p$ . Die Basisstationen geben Binärgebote ab (Ja/Nein).
Regeln: Eine RIS wird einer Basisstation zugewiesen, wenn nur ein Gebot vorliegt. Bei mehreren Geboten steigt der Preis weiter. Es gilt eine Aktivitätsregel, die verhindert, dass Stationen, die in einer Runde nicht geboten haben, in der nächsten wieder einsteigen.

C. Gebotsstrategien

Das Papier vergleicht drei Strategien:

Heuristische Strategien (Basislinien):
- Greedy-Strategie: Gebote basierend auf dem geschätzten marginalen Nutzen, begrenzt durch das verbleibende Budget.
- Distanz-basierte Strategie: Gebote basierend auf der physischen Nähe zur RIS (einfachste Annäherung).
Deep Reinforcement Learning (DRL)-Strategie:
- Agenten: Jede Basisstation agiert als unabhängiger DRL-Agent (Multi-Agent System).
- Beobachtung (Observation): Aktueller Preis, verbleibendes Budget und die geschätzten Nutzenwerte ( $V_t(r)$ ) für verfügbare RISs.
- Aktion: Ausgabe eines Binär-Gebotsvektors für alle RISs.
- Belohnungsfunktion (Reward): Ein zusammengesetzter Reward, der den geschätzten Wert der Gebote belohnt ( $R_1$ ), die Kosten bestraft ( $R_2$ ) und eine harte Strafe für Budgetüberschreitungen verhängt ( $R_3$ ).
- Algorithmus: Training erfolgt mittels Proximal Policy Optimization (PPO).
- Steuerparameter: Ein Parameter $\beta$ (Bid Intensity) steuert die Aggressivität der Gebote.

3. Wichtige Beiträge

Integration von DRL in Auktionen: Erstmals wird ein DRL-basierter Ansatz zur Optimierung der Gebotsstrategien in einer RIS-Auktion vorgeschlagen, der es den Agenten ermöglicht, sich an dynamische Umgebungen anzupassen und langfristige Belohnungen zu maximieren.
Makroskopische Schätzung: Entwicklung einer skalierbaren Methode zur SINR-Schätzung ohne vollständige CSI, die auf makroskopischen Kanalparametern basiert und für große Arrays zuverlässig ist.
Steuerbarer Trade-off: Einführung des Parameters $\beta$ , der es Netzwerkoperatoren ermöglicht, die Aggressivität der KI-Agenten einzustellen und so flexibel zwischen hoher spektraler Effizienz (hohe Kosten) und Kosteneffizienz (geringere Leistung) zu wählen.
Validierung: Umfassende Simulationen zeigen, dass DRL-Strategien heuristischen Ansätzen überlegen sind.

4. Ergebnisse

Die Simulationen in einem Cluster-Szenario an den Zellrändern ( $N_{BS}=2, N_{RIS}=10$ ) ergeben folgende Erkenntnisse:

Leistungssteigerung: Der Einsatz von RISs führt im Vergleich zu Szenarien ohne RIS zu einer signifikanten Verbesserung der Summenrate.
Überlegenheit von DRL: Die DRL-basierten Agenten erreichen bessere Lösungen als die heuristischen Ansätze. Sie erzielen höhere Summenraten bei niedrigeren Gesamtkosten, da sie lernen, selektiv nur hochwertige RISs zu erwerben, während heuristische Ansätze oft zu aggressiv und kostspielig bieten.
Einfluss von $\beta$ :
- Ein hoher $\beta$ -Wert führt zu konservativerem Verhalten: Weniger Gebote, höhere durchschnittliche Gebotsqualität (nur sehr wertvolle RISs), geringere Kosten, aber auch geringere Gesamtperformance.
- Ein niedriger $\beta$ -Wert führt zu aggressiverem Verhalten: Mehr Gebote, auch auf weniger wertvolle RISs, höhere Kosten und höhere Performance.
Konvergenz: Die DRL-Agenten konvergieren stabil und lernen innerhalb der Trainingsphasen effektive Strategien, die Budgetbeschränkungen einhalten.

5. Bedeutung und Ausblick

Diese Arbeit demonstriert das Potenzial der Kombination aus marktbasierten Allokationsmechanismen und adaptiven KI-Methoden für die Ressourcennutzung in zukünftigen 6G-Netzen.

Skalierbarkeit: Der Ansatz ist skalierbar und vermeidet die Komplexität kombinatorischer Auktionen (wie VCG), indem er auf makroskopischen Schätzungen und lokalen Entscheidungen basiert.
Flexibilität: Durch den einstellbaren Parameter $\beta$ können Netzbetreiber die Allokationspolitik dynamisch an wirtschaftliche oder technische Anforderungen anpassen.
Zukunft: Die Ergebnisse unterstreichen, dass Reinforcement Learning ein leistungsfähiges Werkzeug ist, um die Effizienz und Fairness bei der Nutzung geteilter Infrastrukturen wie RISs in heterogenen Umgebungen zu gewährleisten.

Zusammenfassend bietet das Papier einen robusten Rahmen für die dynamische, kosteneffiziente und leistungsoptimierte Verwaltung von RIS-Ressourcen in der nächsten Generation drahtloser Kommunikationssysteme.