Ursprüngliche Autoren: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

Veröffentlicht 2026-05-29✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, einer Gruppe von Robotern beizubringen, wie sie zusammenarbeiten, um Äpfel aufzupicken. Sie haben eine riesige Videobibliothek (ein Datensatz), die zeigt, wie verschiedene Roboterteams diese Aufgabe in der Vergangenheit bewältigt haben. Einige Teams pflückten gemeinsam den roten Apfel, andere den grünen, und einige wanderten einfach ziellos umher.

Die Herausforderung besteht darin, dass Sie die Roboter nicht mehr in der realen Welt üben lassen können; Sie können sie nur unterrichten, indem Sie diese alten Videos ansehen. Dies wird als Offline Multi-Agent Reinforcement Learning bezeichnet.

Das Problem: Der „verwirrte Chor"

In der Vergangenheit machten Forscher, die versuchten, Roboter aus diesen durcheinandergeratenen Videos zu unterrichten, einen großen Fehler. Sie behandelten jeden Roboter so, als würde er allein lernen, und ignorierten dabei, wie sich die anderen bewegten.

Stellen Sie sich einen Chor vor, in dem jeder ein anderes Lied aus demselben Notenblatt singt. Wenn Sie der Sopranistin sagen, sie solle „Lied A" singen, und dem Bassisten, „Lied B" basierend auf ihren individuellen Gewohnheiten, ist das Ergebnis ein schreckliches, chaotisches Geräusch. In der Robotik führt dies zu Fehlabstimmung. Die Roboter könnten versuchen, gleichzeitig zwei verschiedene Äpfel aufzupicken, oder sie könnten versuchen, einen Apfel zu greifen, den niemand im Video erfolgreich gepflückt hat. Am Ende tun sie Dinge, die für einen einzelnen Roboter „okay" aussehen, aber für das Team katastrophal sind.

Die Arbeit nennt dies den „Combinatorial Mode Shift" (Kombinatorischer Modus-Shift). Es ist, als würde man versuchen, ein Haus zu bauen, indem man Baupläne aus einer Burg, einem Zelt und einem Wolkenkratzer mischt. Das Ergebnis ist kein Haus, sondern ein Haufen unpassender Ziegelsteine.

Die Lösung: OMSD (Der „Dirigentenstab")

Die Autoren schlagen eine neue Methode vor, die OMSD (Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition) genannt wird.

So funktioniert es, mit einer einfachen Analogie:

1. Die „Reihenfolge"-Strategie (Sequentielle Zerlegung)
Anstatt jeden Roboter zu fragen, was er basierend auf seinem eigenen Gedächtnis tun soll, fragt OMSD sie in einer bestimmten Reihenfolge, wie eine Reihe von Menschen, die warten, einen Raum zu betreten.

Roboter A geht zuerst und entscheidet: „Ich gehe zum roten Apfel."
Roboter B sieht die Entscheidung von Roboter A und denkt: „Okay, da Roboter A zum roten Apfel geht, sollte ich auch zum roten Apfel gehen, um zu helfen."
Roboter C sieht beide und macht es ihnen nach.

Indem sie betrachten, was die vorherigen Roboter entschieden haben, lernt jeder Roboter den Kontext des Teamplans. Dies verhindert, dass sie versehentlich einen anderen Apfel auswählen oder ziellos umherwandern.

2. Die „Diffusions"-Magie (Die Score-Funktion)
Um dies zu ermöglichen, verwenden die Forscher eine spezielle Art von KI, die als Diffusionsmodell bezeichnet wird. Denken Sie daran wie an einen „Rauschentferner" oder einen „Unschärfe-Klärer".

Stellen Sie sich vor, die alten Videos sind etwas unscharf und voller Störungen.
Das Diffusionsmodell wirkt wie ein intelligenter Filter, der genau weiß, wie man die Daten „entrauschen" kann. Es rät nicht einfach eine zufällige Aktion, sondern berechnet einen „Score" oder eine „Richtung", die auf die Aktionen zeigt, die das Team in den erfolgreichen Videos tatsächlich ausgeführt hat.
Es sagt dem Roboter: „Geh nicht dorthin (das ist ein Fehler); geh hierher (dort hat das Team Erfolg gehabt)."

3. Der „Zentrale Trainer" (Critic)
Während die Roboter ihre spezifischen Züge in der Reihe lernen, beobachtet ein „Zentraler Trainer" (ein zentralisierter Critic) das gesamte Team. Dieser Trainer kennt die Gesamtpunktzahl, die das Team erhält. Er sagt den Robotern: „Hey, diese Strategie für den roten Apfel erzielt eine hohe Punktzahl, macht weiter so!"

Warum es besser ist

Frühere Methoden versuchten, die Roboter zu unterrichten, indem sie ihre individuellen Gewohnheiten isoliert betrachteten. Dies funktionierte gut, wenn alle dasselbe taten, scheiterte jedoch kläglich, wenn die Videos viele verschiedene erfolgreiche Strategien zeigten (multimodale Daten).

OMSD behebt dies durch:

Respektieren der Kette: Es versteht, dass die Bewegung von Roboter B von der Bewegung von Roboter A abhängt.
Im Fahrwasser bleiben: Es hält die Roboter dabei, Dinge zu tun, die tatsächlich in den Videos passiert sind, und verhindert, dass sie riskante, erfundene Züge ausprobieren, die in den Daten nicht existieren.
Den besten Weg finden: Es hilft dem Team, den spezifischen „Modus" oder die Strategie (wie den roten Apfel gegenüber dem grünen Apfel) zu finden, die die höchste Belohnung bringt, ohne sich durch die anderen Strategien in der Videobibliothek verwirren zu lassen.

Die Ergebnisse

Die Autoren testeten dies an verschiedenen Roboteraufgaben, von einfachen Spielen bis hin zu komplexen physikalischen Simulationen (wie Roboter, die rennen oder Beute fangen).

In einfachen Tests: OMSD lernte, sich perfekt abzustimmen, während andere Methoden versagten, sich auf einen Plan zu einigen.
In komplexen Tests: OMSD übertraf konsistent die besten bestehenden Methoden, insbesondere wenn die Trainingsdaten unordentlich waren oder viele verschiedene Wege zum Erfolg zeigten.

Kurz gesagt, OMSD ist wie ein intelligenter Dirigent, der nicht nur jedem Musiker sagt, seinen eigenen Part zu spielen, sondern das gesamte Orchester anleitet, in Harmonie zu spielen, indem es auf die Person vor sich hört und dem Dirigenten folgt, wodurch sichergestellt wird, dass die finale Aufführung ein Hit und keine Katastrophe ist.

Technische Zusammenfassung: Offline Multi-Agenten-Reinforcement-Learning durch sequenzielle Score-Zerlegung

1. Problemstellung

Offline Multi-Agenten-Reinforcement-Learning (MARL) steht vor einer kritischen Herausforderung, die sich vom Single-Agenten-Offline-RL unterscheidet: der Distribution Shift, verursacht durch die Diskrepanz zwischen Online- und Offline-Datenerfassung. Während Online-MARL typischerweise durch interaktive Anpassung zu einer einzigen koordinierten gemeinsamen Politik konvergiert, sind Offline-Datensätze oft Mischungen verschiedener kooperativer Verhaltensweisen, die aus unterschiedlichen Quellen stammen. Dies führt zu hoch multimodalen gemeinsamen Verhaltensverteilungen.

Bestehende Offline-MARL-Methoden lassen sich im Allgemeinen in zwei Kategorien einteilen, die beide mit dieser Multimodalität Schwierigkeiten haben:

Wertbasierte Methoden: Diese stützen sich auf Individual-Global-Maximization (IGM) und konservative Wertabschätzung. Wenn Agenten jedoch unabhängige $\epsilon$ -greedy-Richtlinien verwenden, können sie Joint-Actions außerhalb der Verteilung (OOD) auswählen, die von geringerer Qualität sind und vom Datensatz nicht abgedeckt werden.
Richtlinienbasierte Methoden: Diese beschränken Richtlinien häufig durch Verhaltensregularisierung oder zentrale Planer. Ein häufiger Fehler ist die Annahme, dass die gemeinsame Verhaltenspolitik in unabhängige Randverteilungen faktorisiert werden kann ( $\mu(a|s) = \prod \mu_i(a_i|s)$ ). In multimodalen Settings führt diese unabhängige Faktorisierung zu einem „Combinatorial Mode Shift" (CMS). Da die Agenten zu ihren eigenen Randverteilungen regularisiert werden, verlieren sie die Ausrichtung mit den gemeinsamen Modi, was zu gemeinsamen Richtlinien führt, die außerhalb der dicht besetzten Regionen des Datensatzes liegen. Diese Fehlausrichtung verursacht schwere Distribution Shifts und eine schlechte Koordination.

2. Methodik: OMSD

Die Autoren schlagen Offline MARL mit sequenzieller Score-Zerlegung (OMSD) vor, um das Problem der multimodalen Koordination zu lösen, ohne ein vollständiges Modell der gemeinsamen Politik oder einen zentralen Planer zu benötigen.

Kernkonzept: Sequenzielle Zerlegung

Anstatt bedingte Unabhängigkeit anzunehmen, zerlegt OMSD die gemeinsame Verhaltenspolitik unter Verwendung der Kettenregel, wobei das Verhalten jedes Agenten auf den Aktionen der vorhergehenden Agenten basiert:
$\mu(a|s) = \prod_{i=1}^n \mu_i(a_i | s, a_{<i})$
wobei $a_{<i}$ die gemeinsamen Aktionen aller Agenten vor Agent $i$ darstellt. Diese sequenzielle Modellierung erfasst Abhängigkeiten zwischen den Agenten und liefert einen exakten bedingten Referenzwert für die Richtlinieneinschränkungen jedes Agenten.

Algorithmischer Ablauf

OMSD arbeitet im Rahmen von Centralized-Training-Decentralized-Execution (CTDE) und besteht aus drei Hauptphasen:

Critic-Vorabtraining: Eine zentrale gemeinsame Wertfunktion $Q_{tot}(s, a)$ wird mittels Offline-Implicit Q-Learning (IQL) gelernt, um eine Belohnungsanleitung bereitzustellen.
Score-Vorabtraining: Für jeden Agenten $i$ $i$ wird ein bedingtes Diffusionsmodell auf dem Offline-Datensatz trainiert, um die bedingte Score-Funktion $\nabla_{a_i} \log \mu_i(a_i | s, a_{<i})$ $\nabla_{a_{i}} lo g μ_{i} (a_{i} ∣ s, a_{< i})$ zu schätzen.
- Entscheidend ist, dass diese Modelle parallel trainiert werden.
- Die Score-Funktion approximiert den Gradienten der Log-Wahrscheinlichkeit der Verhaltenspolitik und dient als Verhaltensregularisierer.
Richtlinienoptimierung: Die Agenten aktualisieren ihre Richtlinien unter Verwendung eines Gradienten, der das zentrale Critic-Signal und die sequenzielle Score-Regularisierung kombiniert:
$\nabla_{\theta_i} L_i = \mathbb{E} \left[ \nabla_{a_i} Q_{tot}(s, a) + \frac{1}{\beta} \nabla_{a_i} \log \mu_i(a_i | s, a_{<i}) \right] \nabla_{\theta_i} \pi_{\theta_i}$
- Sequenzielle Bedingung: Während der Aktualisierung von Agent $i$ werden die Präfixaktionen $a_{<i}$ aus den kürzlich aktualisierten Richtlinien der Agenten $1$ bis $i-1$ innerhalb desselben Iterationsschritts gesampelt.
- Ausführung: Trotz der sequenziellen Aktualisierung während des Trainings bleibt die Ausführung vollständig dezentralisiert. Jeder Agent handelt basierend auf seiner lokalen Beobachtung, da die sequenzielle Abhängigkeit nur zur Steuerung der Lernrichtung (Score-Regularisierung) verwendet wird und nicht zur Generierung von Aktionen zur Laufzeit.
- Effizienz: Die Methode verwendet deterministische DiLac-Richtlinien für Präfixaktionen, um eine Verstärkung von Rauschen zu vermeiden, und erfordert keine iterative Denoising-Sampling während der Ausführung, wodurch die hohen Inferenzkosten typischer diffusionsbasierter Akteure vermieden werden.

3. Hauptbeiträge

Identifikation der Ursache: Das Papier identifiziert die multimodale Natur von Offline-Joint-Verhaltensverteilungen und das Versagen der unabhängigen Randfaktorisierung (was zu Combinatorial Mode Shift führt) als die Hauptursache für Koordinationsversagen im Offline-MARL.
OMSD-Algorithmus: Die Entwicklung eines neuartigen Rahmens, der Verhaltenspolitiken sequenziell zerlegt und diffusionsbasierte bedingte Scores als Verhaltensregularisierer nutzt. Dieser Ansatz fördert die koordinierte Modusauswahl, ohne das vollständige Joint-Policy-Modell zu modellieren oder sich auf einen zentralen Planer zu verlassen.
State-of-the-Art-Leistung: Umfangreiche Experimente zeigen, dass OMSD bestehende Methoden konsistent übertrifft, insbesondere in herausfordernden multimodalen Szenarien (z. B. Datensätze mittlerer Qualität).

4. Experimentelle Ergebnisse

Die Autoren evaluierten OMSD an folgenden Beispielen:

Toy Bandit-Beispiel: Eine kooperative Aufgabe mit 2 Agenten und zwei optimalen Modi. OMSD erzielte eine Leistung, die der des Joint-Action-Lernens (BRPO-JAL) entsprach, und übertraf deutlich das unabhängige Lernen (BRPO-IND) sowie naive CTDE-Methoden, die versagten, OOD-Joint-Actions zu vermeiden.
Multi-Agent Particle Environment (MPE): Aufgaben einschließlich Cooperative Navigation, Predator Prey und World. OMSD erzielte die besten oder zweitbesten Scores über Expert-, Medium- und Random-Datensätze hinweg. Bemerkenswert ist, dass OMSD auf „Medium"- und „Random"-Datensätzen, bei denen die Multimodalität ausgeprägt ist, signifikante Gewinne zeigte (z. B. +70,6 % auf Predator Prey Random).
MaMuJoCo: Hochdimensionale kontinuierliche Steuerungsaufgaben, bei denen Roboter-Teile als Agenten agieren (z. B. HalfCheetah, Ant). OMSD übertraf Baselines wie MA-CQL, CFCQL, MADiff und DoF, insbesondere auf Datensätzen gemischter Qualität (z. B. +73,9 % durchschnittliche Verbesserung gegenüber der stärksten Baseline auf OMIGA-Datensätzen).

Ablationsstudien:

Score-Zerlegung: OMSD übertraf Varianten mit unabhängiger Faktorisierung (BRPO-IND, BRPO-CTDE) konsistent, was die Notwendigkeit der sequenziellen Bedingung bestätigt.
Empfindlichkeit gegenüber der Reihenfolge: Die Methode erwies sich als robust gegenüber der Reihenfolge der Agenten-Aktualisierungen, was darauf hindeutet, dass die sequenzielle Struktur als Koordinationsmechanismus während des Trainings und nicht als starrer induktiver Bias wirkt.
Dichteschätzer: Diffusionsmodelle schnitten bei der Erfassung komplexer multimodaler Strukturen besser ab als einfachere Schätzer (GMMs, Normalizing Flows), insbesondere auf Expert- und Medium-Datensätzen.

5. Bedeutung und Behauptungen

Das Papier behauptet, dass modalitätssensible Koordination für robustes Offline-MARL unerlässlich ist. Durch die Nutzung der sequenziellen Score-Zerlegung gelingt es OMSD, Richtlinienaktualisierungen mit der wahren gemeinsamen Verhaltensverteilung in Einklang zu bringen und den Distribution Shift zu vermeiden, der durch unabhängige Regularisierung verursacht wird.

Die Autoren betonen, dass ihr Ansatz:

OOD-Joint-Actions vermeidet: Durch die Bedingung auf Präfixaktionen werden die Agenten zu hochwertigen, in-Verteilung liegenden Regionen gelenkt.
Dezentralisierte Ausführung beibehält: Im Gegensatz zu Methoden, die zentrale Planung oder sequenzielle Ausführung zur Laufzeit erfordern, agieren OMSD-Agenten während des Einsatzes unabhängig.
Skalierbarkeit: Das Vorabtraining bedingter Score-Modelle ist über die Agenten hinweg vollständig parallelisierbar, was die Methode für größere Teams geeignet macht.

Die Arbeit wird als ein bedeutender Schritt vorwärts im Umgang mit der Komplexität von Offline-Multi-Agenten-Daten präsentiert, der speziell den „Combinatorial Mode Shift" adressiert, der frühere richtlinienbasierte Ansätze behindert hat. Die Autoren erkennen Einschränkungen an, wie den aktuellen Fokus auf kontinuierliche Aktionsräume und die Abhängigkeit von der Qualität des vortrainierten zentralen Critics.

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition