MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

Das Paper stellt MOSAIC vor, eine Open-Source-Plattform, die es ermöglicht, heterogene Agenten aus den Bereichen Reinforcement Learning, Large Language Models, Vision-Language Models und menschliche Entscheidungsträger in einer gemeinsamen Umgebung zu vergleichen und zu evaluieren, indem sie durch ein IPC-basiertes Worker-Protokoll, eine einheitliche Operator-Schnittstelle und ein deterministisches Evaluierungsframework integriert werden.

Abdulhamid M. Mousa, Yu Fu, Rakhmonberdi Khajiev, Jalaledin M. Azzabi, Abdulkarim M. Mousa, Peng Yang, Yunusa Haruna, Ming Liu

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist der Regisseur eines riesigen, chaotischen Films. In diesem Film gibt es vier völlig verschiedene Arten von Schauspielern:

  1. Der Roboter (RL): Ein hochintelligenter, aber stummer Mathematiker, der nur Zahlen sieht und blitzschnelle Entscheidungen trifft. Er lernt durch Versuch und Irrtum.
  2. Der Philosoph (LLM): Ein genialer Schriftsteller, der nur Text versteht. Er denkt viel nach, erklärt seine Gedanken in Sätzen, ist aber manchmal langsam.
  3. Der Künstler (VLM): Ein Maler, der Bilder und Texte kombiniert. Er sieht die Welt wie wir Menschen, aber er muss erst lernen, was er sieht, in Worte zu fassen.
  4. Der Mensch: Ein echter, lebender Schauspieler, der mit einer Tastatur steuert und manchmal einfach nur "so fühlt", was er tun soll.

Das Problem bisher:
Bisher war es unmöglich, diese vier zusammen auf einer Bühne zu haben. Der Regisseur (die Software) wusste nicht, wie er dem Philosophen sagen soll, was der Roboter gerade sieht. Der Roboter sprach nur "Zahlen", der Philosoph nur "Wörter". Sie konnten nicht im selben Raum spielen, weil sie keine gemeinsame Sprache hatten. Man musste sie getrennt testen und dann raten, wer besser wäre.

Die Lösung: MOSAIC
Das Papier stellt MOSAIC vor. Das ist wie ein geniales Übersetzer- und Regiesystem, das diese vier Welten endlich zusammenbringt.

Hier ist, wie es funktioniert, einfach erklärt:

1. Die "Übersetzer-Boote" (Worker Protocol)

Stell dir vor, jeder Schauspieler sitzt in einem eigenen, abgeschotteten Boot auf dem Wasser.

  • Der Roboter ist in einem Boot, das nur Zahlen spricht.
  • Der Philosoph ist in einem Boot, das nur Text spricht.
  • Der Mensch ist in einem Boot mit einer Tastatur.

MOSAIC ist der Hafenmeister. Er schickt kleine Boote (die "Worker") zu jedem Schauspieler. Diese Boote nehmen das, was der Schauspieler sagt (ob Zahlen oder Text), und übersetzen es sofort in eine universelle Sprache, die der Hafenmeister versteht. Umgekehrt übersetzen sie die Befehle des Hafenmeisters zurück in die Sprache des Schauspielers.
Der Clou: Niemand muss sein Boot umbauen! Der Roboter muss nicht lernen, Text zu sprechen, und der Philosoph muss nicht lernen, Zahlen zu rechnen. MOSAIC macht die Übersetzung für sie.

2. Die "Einheitliche Maske" (Operator Abstraction)

Obwohl die Schauspieler so unterschiedlich sind, trägt jeder im Film dieselbe Maske.
Für die Kamera (die Umgebung) ist es egal, ob hinter der Maske ein Roboter, ein Mensch oder ein KI-Modell sitzt. Sie sehen alle nur: "Hier ist eine Aufgabe, hier ist die Antwort."
Das System sorgt dafür, dass alle Schauspieler genau dann agieren, wenn die anderen auch agieren. Niemand wird zurückgelassen oder geht zu schnell vor.

3. Der "Live-Stream" und der "Automaten-Modus" (Evaluation)

MOSAIC bietet zwei Arten, den Film zu drehen:

  • Der Live-Stream (Manueller Modus): Du sitzt als Zuschauer vor einem riesigen Bildschirm. Du siehst alle vier Schauspieler gleichzeitig auf demselben Spielfeld. Du kannst sehen, wie der Roboter blitzschnell einen Zug macht, während der Philosoph noch überlegt, was er sagen soll. Du kannst den Film pausieren und genau analysieren: "Warum hat der Philosoph diesen Fehler gemacht?"
  • Der Automaten-Modus (Skript-Modus): Du drückst einen Knopf, und das System spielt den Film tausende Male durch, immer unter exakt denselben Bedingungen (gleicher Start, gleiche Zufallszahlen). So kann man wissenschaftlich beweisen, wer wirklich besser ist, ohne dass jemand schummelt.

Warum ist das wichtig?

Bisher haben wir nur Roboter gegen Roboter oder Menschen gegen Menschen getestet. Aber in der echten Welt arbeiten wir oft mit einer Mischung: Einem schnellen Computer, einem klugen KI-Assistenten und einem Menschen.

MOSAIC ist das erste Labor, in dem man fair testen kann:

  • Wer ist besser im Schach: Ein KI-Modell, das nur Zahlen sieht, oder ein großes Sprachmodell, das die Regeln liest?
  • Können ein Mensch und eine KI wirklich gut zusammenarbeiten, wenn sie völlig unterschiedlich denken?
  • Versteht die KI (VLM) das Bild besser als der reine Text-Philosoph (LLM)?

Zusammengefasst:
MOSAIC ist wie ein universeller Dolmetscher und Regisseur, der endlich erlaubt, dass ein Roboter, ein Sprach-KI, ein Bild-KI und ein Mensch im selben Team spielen, ohne dass sich jemand um die technischen Sprachbarrieren kümmern muss. Es macht den Vergleich fair, sichtbar und wissenschaftlich sauber.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →