MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist der Regisseur eines riesigen, chaotischen Films. In diesem Film gibt es vier völlig verschiedene Arten von Schauspielern:

Der Roboter (RL): Ein hochintelligenter, aber stummer Mathematiker, der nur Zahlen sieht und blitzschnelle Entscheidungen trifft. Er lernt durch Versuch und Irrtum.
Der Philosoph (LLM): Ein genialer Schriftsteller, der nur Text versteht. Er denkt viel nach, erklärt seine Gedanken in Sätzen, ist aber manchmal langsam.
Der Künstler (VLM): Ein Maler, der Bilder und Texte kombiniert. Er sieht die Welt wie wir Menschen, aber er muss erst lernen, was er sieht, in Worte zu fassen.
Der Mensch: Ein echter, lebender Schauspieler, der mit einer Tastatur steuert und manchmal einfach nur "so fühlt", was er tun soll.

Das Problem bisher:
Bisher war es unmöglich, diese vier zusammen auf einer Bühne zu haben. Der Regisseur (die Software) wusste nicht, wie er dem Philosophen sagen soll, was der Roboter gerade sieht. Der Roboter sprach nur "Zahlen", der Philosoph nur "Wörter". Sie konnten nicht im selben Raum spielen, weil sie keine gemeinsame Sprache hatten. Man musste sie getrennt testen und dann raten, wer besser wäre.

Die Lösung: MOSAIC
Das Papier stellt MOSAIC vor. Das ist wie ein geniales Übersetzer- und Regiesystem, das diese vier Welten endlich zusammenbringt.

Hier ist, wie es funktioniert, einfach erklärt:

1. Die "Übersetzer-Boote" (Worker Protocol)

Stell dir vor, jeder Schauspieler sitzt in einem eigenen, abgeschotteten Boot auf dem Wasser.

Der Roboter ist in einem Boot, das nur Zahlen spricht.
Der Philosoph ist in einem Boot, das nur Text spricht.
Der Mensch ist in einem Boot mit einer Tastatur.

MOSAIC ist der Hafenmeister. Er schickt kleine Boote (die "Worker") zu jedem Schauspieler. Diese Boote nehmen das, was der Schauspieler sagt (ob Zahlen oder Text), und übersetzen es sofort in eine universelle Sprache, die der Hafenmeister versteht. Umgekehrt übersetzen sie die Befehle des Hafenmeisters zurück in die Sprache des Schauspielers.
Der Clou: Niemand muss sein Boot umbauen! Der Roboter muss nicht lernen, Text zu sprechen, und der Philosoph muss nicht lernen, Zahlen zu rechnen. MOSAIC macht die Übersetzung für sie.

2. Die "Einheitliche Maske" (Operator Abstraction)

Obwohl die Schauspieler so unterschiedlich sind, trägt jeder im Film dieselbe Maske.
Für die Kamera (die Umgebung) ist es egal, ob hinter der Maske ein Roboter, ein Mensch oder ein KI-Modell sitzt. Sie sehen alle nur: "Hier ist eine Aufgabe, hier ist die Antwort."
Das System sorgt dafür, dass alle Schauspieler genau dann agieren, wenn die anderen auch agieren. Niemand wird zurückgelassen oder geht zu schnell vor.

3. Der "Live-Stream" und der "Automaten-Modus" (Evaluation)

MOSAIC bietet zwei Arten, den Film zu drehen:

Der Live-Stream (Manueller Modus): Du sitzt als Zuschauer vor einem riesigen Bildschirm. Du siehst alle vier Schauspieler gleichzeitig auf demselben Spielfeld. Du kannst sehen, wie der Roboter blitzschnell einen Zug macht, während der Philosoph noch überlegt, was er sagen soll. Du kannst den Film pausieren und genau analysieren: "Warum hat der Philosoph diesen Fehler gemacht?"
Der Automaten-Modus (Skript-Modus): Du drückst einen Knopf, und das System spielt den Film tausende Male durch, immer unter exakt denselben Bedingungen (gleicher Start, gleiche Zufallszahlen). So kann man wissenschaftlich beweisen, wer wirklich besser ist, ohne dass jemand schummelt.

Warum ist das wichtig?

Bisher haben wir nur Roboter gegen Roboter oder Menschen gegen Menschen getestet. Aber in der echten Welt arbeiten wir oft mit einer Mischung: Einem schnellen Computer, einem klugen KI-Assistenten und einem Menschen.

MOSAIC ist das erste Labor, in dem man fair testen kann:

Wer ist besser im Schach: Ein KI-Modell, das nur Zahlen sieht, oder ein großes Sprachmodell, das die Regeln liest?
Können ein Mensch und eine KI wirklich gut zusammenarbeiten, wenn sie völlig unterschiedlich denken?
Versteht die KI (VLM) das Bild besser als der reine Text-Philosoph (LLM)?

Zusammengefasst:
MOSAIC ist wie ein universeller Dolmetscher und Regisseur, der endlich erlaubt, dass ein Roboter, ein Sprach-KI, ein Bild-KI und ein Mensch im selben Team spielen, ohne dass sich jemand um die technischen Sprachbarrieren kümmern muss. Es macht den Vergleich fair, sichtbar und wissenschaftlich sauber.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Forschung im Bereich des maschinellen Lernens hat sich in isolierten Silos entwickelt:

Reinforcement Learning (RL): Frameworks wie RLlib oder CleanRL nutzen Tensor-Beobachtungen und erzeugen ganzzahlige Aktionen.
Large Language Models (LLMs) & Vision-Language Models (VLMs): Diese erwarten Text-Prompts oder multimodale Eingaben und generieren Textantworten.
Menschliche Akteure: Benötigen interaktive grafische Schnittstellen.

Bisherige Infrastrukturen (z. B. Gymnasium, PettingZoo) haben zwar die Umgebungsseite standardisiert, aber die Agentenseite bleibt fragmentiert. Es fehlt eine Plattform, die es erlaubt, Agenten unterschiedlicher Paradigmen (RL, LLM, VLM, Mensch) in derselben Umgebung zu betreiben, um ihr Verhalten unter identischen Bedingungen fair zu vergleichen oder gemischte Teams (Ad-Hoc-Teaming) zu untersuchen. Bestehende Benchmarks gehen meist davon aus, dass alle Agenten dieselbe Beobachtungs- und Aktionsrepräsentation teilen.

2. Methodik und Architektur

MOSAIC ist eine Open-Source-Plattform, die diese Lücke schließt, indem sie eine Operator-Abstraktion und ein IPC-basiertes Worker-Protokoll einführt. Die Architektur folgt einem Drei-Schichten-Modell:

A. Orchestrierungsschicht (Qt6 GUI)

Dient als autoritative Kontrollebene.
Startet und überwacht Worker-Prozesse als isolierte Subprozesse (via os.setsid()).
Bietet eine grafische Benutzeroberfläche (GUI) für Echtzeit-Visualisierung, ohne algorithmische Logik zu enthalten.
Sammelt Telemetriedaten in SQLite-Modellen und steuert Pausen/Wiederaufnahmen.

B. Worker-Protokoll (IPC)

Jeder Agent (ob RL, LLM oder Mensch) läuft in einem separaten Subprozess.
Die Kommunikation erfolgt über ein leichtgewichtiges JSON-Protokoll via stdin/stdout.
Befehle: reset, step, stop.
Antworten: ready (Metadaten), step (Aktion, Belohnung, Terminierung), episode_end.
Vorteil: Native Frameworks (z. B. CleanRL, XuanCe, BALROG) können als Worker integriert werden, ohne dass der Quellcode der Bibliotheken geändert werden muss („Zero Modifications").
Fehlertoleranz: Heartbeat-Mechanismus (alle 60 Sek.); bei Ausfall erfolgt Wiederherstellung über Checkpoints.

C. Operator-Abstraktion

Eine Abstraktionsebene, die Worker auf Agenten-Slots in einer Umgebung abbildet.
Einheitliche Schnittstelle: Alle Agenten (RL, LLM, VLM, Mensch) implementieren das OperatorController-Interface mit Methoden wie select_action.
Dies ermöglicht es, heterogene Teams zu bilden, bei denen ein Agent auf Tensoren reagiert, ein anderer auf Text und ein dritter auf Mausklicks, während die Umgebung dieselbe bleibt.

3. Schlüsselbeiträge

Das Paper stellt drei Hauptbeiträge vor:

IPC-basiertes Worker-Protokoll:
- Ermöglicht die Einbindung nativer und Drittanbieter-Frameworks als isolierte Prozesse.
- Jeder Worker führt seine native Trainings- und Inferenzlogik unverändert aus.
- Kommunikation über eine versionierte Inter-Prozess-Kommunikation (IPC).
Operator-Abstraktion:
- Schafft eine einheitliche Agentenebene, die verschiedene Paradigmen vereinheitlicht.
- Unterstützt RL-Policies, LLMs, VLMs und menschliche Spieler in einem einzigen System.
- Ermöglicht das „Ad-Hoc-Teaming" (Zusammenarbeit ohne vorherige Koordination) zwischen völlig unterschiedlichen Agententypen.
Deterministisches Evaluierungs-Framework:
- Manueller Modus: Führt bis zu $N$ gleichzeitige Operatoren schrittweise unter geteilten Seeds aus. Die GUI zeigt die Sichtfelder aller Agenten nebeneinander mit farbcodierten Badges an (z. B. Lila für RL, Blau für LLM), was eine feingranulare visuelle Analyse ermöglicht.
- Skript-Modus: Automatisierte, deklarative Python-Skripte für lange Evaluierungsläufe und reproduzierbare Experimente (JSONL-Telemetrie).

4. Ergebnisse und Experimente

Obwohl das Paper primär die Plattform und das Design vorstellt, werden experimentelle Konfigurationen für zukünftige Studien definiert:

Unterstützte Umgebungen: 26 Familien von Umgebungen (z. B. MiniGrid, Soccer, Chess, Melting Pot).
Integration: Verschiedene Frameworks (CleanRL, Ray RLlib, XuanCe, BALROG) wurden mit minimalem „Glue Code" (ca. 50–120 Zeilen Code) integriert, ohne Änderungen am Originalcode.
Evaluierungs-Szenarien:
- Adversarial (Wettbewerbs): Vergleich homogener Teams (nur RL vs. nur LLM) gegen heterogene Teams (RL vs. LLM).
- Kooperativ: Untersuchung, ob ein LLM oder VLM effektiv mit einem eingefrorenen RL-Agenten (der solo trainiert wurde) zusammenarbeiten kann.
Hypothesen: Die Plattform soll testen, ob heterogene Teams Synergien zeigen, ob ein Paradigma dominiert oder ob Inkompatibilitäten die Leistung verschlechtern.

5. Bedeutung und Fazit

MOSAIC ist das erste System, das alle vier Agententypen (RL, LLM, VLM, Mensch) in einer einzigen Plattform unterstützt und einen direkten, fairen Vergleich unter identischen Bedingungen (geteilte Seeds, gleiche Umgebung) ermöglicht.

Wissenschaftlicher Fortschritt: Es adressiert die Lücke in der Ad-Hoc-Teaming-Forschung, die bisher davon ausging, dass alle Agenten das gleiche Paradigma teilen.
Reproduzierbarkeit: Durch die strikte Trennung von Orchestrierung und Ausführung sowie die deterministische Evaluierung werden Ergebnisse über verschiedene Paradigmen hinweg vergleichbar.
Community-Beitrag: Als Open-Source-Projekt (MIT-Lizenz) mit GUI und umfassender Dokumentation fördert es die Zusammenarbeit zwischen den Communities von RL, LLM/VLM und Human-in-the-Loop-Forschung.

Zusammenfassend bietet MOSAIC die notwendige Infrastruktur, um die Frage zu beantworten: Wie verhalten sich Agenten unterschiedlicher Denkweisen (statistisch, sprachbasiert, visuell, menschlich), wenn sie gezwungen sind, in derselben Welt zu kooperieren oder zu konkurrieren?

MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

1. Die "Übersetzer-Boote" (Worker Protocol)

2. Die "Einheitliche Maske" (Operator Abstraction)

3. Der "Live-Stream" und der "Automaten-Modus" (Evaluation)

Warum ist das wichtig?

1. Problemstellung

2. Methodik und Architektur

A. Orchestrierungsschicht (Qt6 GUI)

B. Worker-Protokoll (IPC)

C. Operator-Abstraktion

3. Schlüsselbeiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank