MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

Each language version is independently generated for its own context, not a direct translation.

🧩 MOSAIC : Le Grand Tournoi des Décideurs

Imaginez un immense stade de sport, mais au lieu de jouer au football ou au basket, les équipes s'affrontent dans des jeux vidéo complexes (comme des labyrinthes ou des jeux de stratégie).

Jusqu'à présent, ce stade était divisé en plusieurs enceintes séparées :

L'enceinte des Robots (RL) : Des intelligences artificielles entraînées spécifiquement pour le jeu, qui voient le monde sous forme de chiffres et de graphiques.
L'enceinte des Génies du Texte (LLM) : Des IA comme ChatGPT qui raisonnent avec des mots, comme des humains qui lisent un manuel.
L'enceinte des Visionnaires (VLM) : Des IA qui voient et comprennent les images, comme un humain qui regarde un écran.
L'enceinte des Humains : Des joueurs réels avec leurs claviers et souris.

Le problème ? Personne n'avait jamais réussi à mettre ces quatre types de joueurs dans la même équipe, sur le même terrain, au même moment. C'était comme essayer de faire jouer un footballeur, un joueur d'échecs, un pianiste et un humain dans une même partie de rugby sans règles communes. C'était le chaos.

🛠️ La Solution : MOSAIC (Le Super-Organisateur)

Les chercheurs ont créé MOSAIC (comme une mosaïque de tuiles différentes qui forment un tout). C'est une plateforme logicielle open-source qui agit comme un arbitre universel et un traducteur en temps réel.

Voici comment ça marche, avec une analogie simple :

1. Le Système de "Boîtes de Nuit" (Les Workers)

Imaginez que chaque type d'IA (Robot, Texte, Image) vit dans sa propre maison isolée. MOSAIC ne force personne à déménager ou à changer de maison.

Au lieu de cela, MOSAIC installe une porte de communication (un protocole) devant chaque maison.
Le Robot envoie ses chiffres par la porte.
L'IA Textuelle envoie ses phrases.
L'Humain envoie ses clics de souris.
MOSAIC traduit tout cela instantanément pour que tout le monde joue sur le même terrain, sans que les programmes originaux aient besoin d'être modifiés. C'est comme si vous pouviez inviter un ami qui parle chinois et un autre qui parle espagnol à jouer à un jeu de société, et que l'organisateur traduisait les règles pour chacun en temps réel.

2. Le Tableau de Bord Magique (L'Interface)

MOSAIC offre un écran de contrôle visuel.

Imaginez un tableau de bord de pilote d'avion où vous voyez quatre caméras différentes en direct.
Une caméra montre ce que voit le Robot (des données brutes).
Une autre montre ce que "pense" l'IA Textuelle (ses phrases).
Une autre montre ce que voit l'Humain (l'image du jeu).
Vous pouvez voir exactement comment chacun réagit à la même situation, côte à côte, comme si vous regardiez un match de foot avec des commentaires pour chaque joueur.

3. Le Chronomètre Parfait (L'Évaluation)

Le plus grand défi scientifique est de comparer les gens équitablement. Si l'IA Textuelle joue avec un vent de face et le Robot avec un vent arrière, ce n'est pas juste.

MOSAIC utilise un chronomètre magique (des "graines" aléatoires partagées).
Cela garantit que lorsque le Robot voit un obstacle, l'IA Textuelle et l'Humain voient exactement le même obstacle au même moment.
Cela permet de répondre à des questions fascinantes : "Est-ce qu'une IA qui lit des livres est meilleure pour coopérer qu'un robot entraîné par des milliers d'heures de jeu ?" ou "Peut-on mettre un humain et une IA dans la même équipe pour gagner ?"

🚀 Pourquoi c'est révolutionnaire ?

Avant MOSAIC, les chercheurs devaient choisir leur camp : soit ils étudiaient les robots, soit les IA textuelles.
Aujourd'hui, avec MOSAIC, on peut créer des équipes hétérogènes (des "Ad-Hoc Teams").

L'analogie finale :
C'est comme si vous pouviez former une équipe de super-héros où :

L'un est un robot de combat ultra-rapide (RL).
L'autre est un stratège qui lit tous les livres de l'histoire (LLM).
Le troisième est un humain avec une intuition naturelle.
Et le quatrième est un robot qui voit tout en haute définition (VLM).

MOSAIC est le seul outil capable de les faire jouer ensemble, de voir qui fait quoi, et de dire si cette équipe mixe gagne plus souvent que des équipes composées uniquement de robots ou uniquement de humains.

📝 En résumé

MOSAIC est une boîte à outils gratuite qui permet de mélanger intelligemment des robots, des IA textuelles, des IA visuelles et des humains dans les mêmes jeux vidéo. Elle permet de comparer leur intelligence de manière équitable et de voir comment ils peuvent apprendre à travailler ensemble, ouvrant la voie à de futures collaborations entre humains et machines de toutes sortes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Bien que l'apprentissage par renforcement (RL), les grands modèles de langage (LLM) et les modèles vision-langage (VLM) aient fait l'objet d'études intensives, ils évoluent actuellement dans des écosystèmes isolés.

Fragmentation des infrastructures : Les frameworks RL (comme RLlib, CleanRL) attendent des observations sous forme de tenseurs et produisent des actions entières, tandis que les agents LLM/VLM attendent des prompts textuels et génèrent des réponses textuelles. Les opérateurs humains nécessitent des interfaces interactives.
Absence de comparaison équitable : Il n'existe aucune infrastructure permettant de déployer des agents de paradigmes décisionnels différents (RL, LLM, VLM, Humain) au sein du même environnement multi-agents.
Limites des travaux existants : La littérature sur le travail d'équipe ad hoc (AHT) et la coordination à zéro coup (ZSC) suppose généralement que tous les agents partagent les mêmes représentations d'observation et d'action. Cela empêche l'étude de scénarios réalistes où les coéquipiers opèrent via des modalités totalement différentes (ex: un agent RL contrôlant des mouvements précis aux côtés d'un agent LLM raisonnant en langage naturel).

2. Méthodologie et Architecture Logicielle

MOSAIC est une plateforme open-source conçue pour combler ce fossé. Elle adopte une architecture en trois couches (Orchestration, Communication, Exécution) permettant l'isolation des processus et l'interopérabilité.

A. Architecture en Trois Niveaux

Couche d'Orchestration (GUI Qt6) :
- Agit comme plan de contrôle central.
- Gère le lancement et la supervision des processus travailleurs (workers) via une isolation de groupe de processus (os.setsid).
- Fournit une interface graphique pour la visualisation en temps réel, la pause/ reprise, et l'agrégation des télémétries.
- Ne contient aucune logique algorithmique, assurant la neutralité de l'interface.
Protocole de Communication (IPC) :
- Utilise un protocole JSON léger via stdin/stdout pour la communication entre la GUI et les processus travailleurs.
- Les commandes incluent reset, step, et stop.
- Les réponses sont typées (prêt, action, récompense, fin d'épisode, erreurs).
- Mode par lots : Les travailleurs peuvent émettre des flux JSONL vers un proxy de télémétrie qui convertit les données en messages Protocol Buffer et les envoie via gRPC pour une analyse asynchrone.
- Robustesse : Un système de "heartbeat" (battement de cœur) détecte les pannes et permet une récupération avec restauration des points de contrôle.
Couche d'Exécution (Processus Travailleurs) :
- Chaque agent (RL, LLM, Humain) s'exécute dans un sous-processus isolé.
- Intégration sans modification de code source : Les frameworks tiers (CleanRL, XuanCe, RLlib, BALROG) sont enveloppés ("wrapped") par des scripts d'adhésion (glue code) minimes (environ 50-120 lignes), préservant leur logique native.

B. Abstraction "Operator" (Opérateur)

MOSAIC introduit une abstraction unifiée appelée Opérateur qui mappe les travailleurs vers des emplacements d'agents dans l'environnement.

Interface Unifiée : Que l'agent soit un RL, un LLM ou un humain, il se conforme à une interface minimale (OperatorController) avec des méthodes comme select_action ou select_actions.
Gestion de l'hétérogénéité : Pour les environnements multi-agents, un MultiAgentOperatorHandle gère un processus par agent, acheminant les commandes spécifiques et agrégeant les réponses.

C. Évaluation Trans-Paradigme

La plateforme propose deux modes d'évaluation complémentaires :

Mode Manuel : Permet de faire avancer N opérateurs de manière synchrone (lock-step) sous des graines aléatoires partagées. La GUI affiche les vues de chaque agent côte à côte avec des badges colorés pour une inspection visuelle fine des différences comportementales.
Mode Script : Pilotage automatisé via des scripts Python déclaratifs pour des évaluations longues et reproductibles, générant des télémétries JSONL.

3. Contributions Clés

Protocole IPC basé sur les processus travailleurs : Permet d'intégrer des frameworks natifs et tiers sans modifier leur code source, en exécutant chaque logique d'inférence/entraînement dans un processus isolé communiquant via un protocole versionné.
Abstraction Opérateur : Une interface unifiée qui normalise l'interaction avec des agents hétérogènes (RL, LLM, VLM, Humain), masquant la complexité des différences de modalités d'entrée/sortie.
Cadre d'évaluation déterministe : Offre une infrastructure pour comparer équitablement des paradigmes différents dans les mêmes conditions (mêmes graines, mêmes environnements), avec deux modes (manuel et script) pour la reproductibilité et l'analyse.
Support Multi-Paradigme Complet : MOSAIC est le seul système à supporter simultanément les quatre types d'agents (RL, LLM, VLM, Humain) tout en permettant des équipes hétérogènes (ex: un agent RL + un agent LLM dans une même équipe).

4. Résultats et Configurations Expérimentales

Bien que les résultats empiriques complets soient destinés à un article complémentaire, le papier définit une matrice d'ablation rigoureuse pour évaluer ces systèmes :

Scénarios Adversariaux : Comparaison de équipes homogènes (RL vs RL, LLM vs LLM) contre des équipes hétérogènes (RL vs LLM, RL vs VLM) pour mesurer les performances relatives.
Équipes Coopératives Hétérogènes : Évaluation de la capacité d'un agent LLM/VLM à coopérer avec une politique RL "gelée" (entraînée seule, sans partenaire).
- Hypothèse testée : Un agent LLM peut-il servir de partenaire "ad hoc" efficace pour un agent RL sans co-entraînement ?
Design "Solo-to-Team" : Les politiques RL sont entraînées en solo (N=1) et gelées avant le déploiement. Cela élimine le biais du co-entraînement et isole la variable "paradigme" comme seul facteur expérimental.
Portée Environnementale : Support de 26 familles d'environnements, mais avec une focalisation stratégique sur les mondes discrets (grids) pour les agents LLM/VLM, car les travaux antérieurs montrent leurs limites dans les contrôles continus (robotique) en raison de problèmes de latence et de raisonnement spatial.

5. Signification et Impact

Standardisation de la partie "Agent" : Alors que Gymnasium et PettingZoo ont standardisé l'interface environnement, MOSAIC standardise l'interface agent, permettant une interopérabilité sans précédent.
Nouvelle Frontière de Recherche : La plateforme permet d'étudier systématiquement la coopération trans-paradigme, un domaine négligé où des entités aux capacités cognitives et modalités d'observation radicalement différentes doivent collaborer.
Reproductibilité et Ouverture : En tant que plateforme open-source (MIT License) avec une documentation complète et une interface visuelle, MOSAIC facilite la recherche reproductible au sein des communautés RL, LLM, VLM et de l'humain dans la boucle.
Distinction par rapport aux ZSC (Zero-Shot Coordination) : Contrairement à la ZSC classique qui suppose des agents partageant le même espace d'observation et d'action, MOSAIC aborde le défi plus profond où les partenaires ont des espaces d'observation hétérogènes ( $O_{RL} \neq O_{LLM}$ ) et des mécanismes décisionnels différents.

En résumé, MOSAIC fournit l'infrastructure fondamentale nécessaire pour passer de l'étude isolée des agents intelligents à l'analyse de leurs interactions complexes et hétérogènes dans des équipes mixtes, ouvrant la voie à une compréhension plus profonde de la collaboration homme-machine et multi-modale.

MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

🧩 MOSAIC : Le Grand Tournoi des Décideurs

🛠️ La Solution : MOSAIC (Le Super-Organisateur)

1. Le Système de "Boîtes de Nuit" (Les Workers)

2. Le Tableau de Bord Magique (L'Interface)

3. Le Chronomètre Parfait (L'Évaluation)

🚀 Pourquoi c'est révolutionnaire ?

📝 En résumé

1. Problématique

2. Méthodologie et Architecture Logicielle

A. Architecture en Trois Niveaux

B. Abstraction "Operator" (Opérateur)

C. Évaluation Trans-Paradigme

3. Contributions Clés

4. Résultats et Configurations Expérimentales

5. Signification et Impact

Articles similaires

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank