MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um organizador de um grande torneio de jogos. Até hoje, você tinha três torneos separados: um só para robôs que aprendem sozinhos (RL), um só para "cérebros" de texto gigantes (LLMs) e um só para pessoas reais jogando. O problema? Ninguém conseguia colocar um robô, um cérebro de texto e uma pessoa na mesma mesa, jogando o mesmo jogo ao mesmo tempo, para ver quem era o melhor parceiro ou o melhor adversário.

É aí que entra o MOSAIC.

O MOSAIC é como uma plataforma de tradução universal e um estádio de jogos unificado criado por pesquisadores da China e do Egito. O objetivo deles é simples: permitir que diferentes tipos de "jogadores" (sejam eles robôs, inteligências artificiais de texto, modelos que veem imagens ou humanos) joguem juntos, lado a lado, de forma justa e controlada.

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: A "Torre de Babel" dos Jogadores

Antes do MOSAIC, os robôs falavam uma língua (números e dados), os cérebros de texto falavam outra (frases escritas) e os humanos precisavam de um teclado e uma tela. Tentar juntá-los era como tentar fazer um pianista, um cantor de ópera e um dançarino de breakdance se apresentarem juntos, mas sem ninguém saber a partitura do outro. Eles não conseguiam se entender.

2. A Solução: O MOSAIC como um "Maestro" e um "Tradutor"

O MOSAIC resolve isso com três truques mágicos:

O Protocolo de Mensageiro (IPC): Imagine que cada jogador (robô, IA ou humano) está em um quarto isolado. O MOSAIC não entra no quarto para mudar como eles pensam. Em vez disso, ele coloca um mensageiro na porta de cada um. Esse mensageiro pega o que o robô diz (números), traduz para o que o humano precisa ver (uma imagem na tela), e vice-versa. É como um tradutor simultâneo que permite que todos conversem sem que ninguém precise mudar sua própria língua nativa.
O "Cartão de Identidade" Único (Operador): O sistema trata todos da mesma forma. Para o MOSAIC, não importa se o jogador é um robô super-rápido ou um humano devagar; todos recebem um "cartão de identidade" padrão. Isso permite que o sistema peça a qualquer um: "Faça sua jogada agora", e receba a resposta de volta, não importa de quem venha.
O Estádio de Comparação Justa: O MOSAIC permite rodar o jogo duas vezes, exatamente igual. Na primeira, o time é composto por robôs. Na segunda, por IAs de texto. Na terceira, por humanos. Como o "tempo" e o "tabuleiro" são idênticos (mesmas sementes aleatórias), você pode dizer com certeza: "O robô foi melhor que a IA de texto neste cenário".

3. Os Dois Modos de Jogar

O sistema oferece duas formas de testar esses times:

Modo Manual (O "Replay" em Câmera Lenta): Você pode pausar o jogo a cada jogada e ver, lado a lado, o que o robô pensou, o que a IA de texto escreveu e o que o humano fez. É como assistir a um filme com legendas de todos os jogadores, permitindo ver exatamente onde um errou e o outro acertou.
Modo Script (O "Maratona" Automático): Você escreve um roteiro e deixa o sistema rodar milhares de jogos sozinho, coletando dados para ver quem vence mais vezes no longo prazo, sem precisar de ninguém olhando a tela.

Por que isso é importante?

Imagine que você quer criar um time de resgate onde um robô voa, um drone com câmera ajuda e um humano toma as decisões finais. Antes, era impossível testar se essa combinação funcionava bem. Com o MOSAIC, os pesquisadores podem simular isso agora.

Eles podem responder perguntas como:

"Um robô treinado sozinho consegue trabalhar bem com um humano que nunca viu esse robô antes?"
"Uma IA que lê texto consegue cooperar com uma IA que vê imagens?"
"Quem toma decisões melhores em um jogo de estratégia: um humano, um robô ou um modelo de linguagem?"

Resumo

O MOSAIC é a primeira "ponte" que conecta o mundo dos robôs, o mundo das IAs de texto e o mundo dos humanos. Ele não tenta consertar os jogadores; ele apenas cria um ambiente onde todos podem jogar juntos, falar a mesma língua e ser comparados de forma justa. É como se, pela primeira vez, o futebol, o xadrez e o pôquer pudessem ser jogados na mesma mesa, com as mesmas regras, para ver quem é o verdadeiro campeão da cooperação.

O código desse projeto é gratuito e aberto, permitindo que qualquer pesquisador no mundo comece a testar essas misturas de inteligência hoje mesmo.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O campo de Inteligência Artificial tem visto o desenvolvimento independente e maduro de três grandes paradigmas de tomada de decisão:

Aprendizado por Reforço (RL): Focado em observações tensoriais e ações discretas/contínuas.
Modelos de Linguagem (LLMs) e Visão-Linguagem (VLMs): Focados em prompts de texto e respostas geradas.
Agentes Humanos: Que requerem interfaces interativas.

A Lacuna: Embora existam frameworks robustos para cada um desses paradigmas isoladamente (ex: RLlib, CleanRL para RL; BALROG, AgentBench para LLMs), não existe uma infraestrutura unificada que permita:

Implantar agentes de paradigmas diferentes no mesmo ambiente simultaneamente.
Realizar comparações justas e reprodutíveis sob condições idênticas (mesmas sementes aleatórias, mesmo estado do ambiente).
Estudar o Trabalho em Equipe Ad-Hoc (AHT) e a Coordenação Zero-Shot (ZSC) em cenários onde os companheiros de equipe operam com representações de observação e ação fundamentalmente diferentes (ex: um agente RL vê tensores, enquanto um LLM vê texto).

A literatura atual assume que todos os agentes compartilham a mesma representação de observação e ação, ignorando a complexidade de equipes heterogêneas mistas.

2. Metodologia e Arquitetura

O MOSAIC é uma plataforma de código aberto projetada com uma arquitetura de três camadas para isolar a lógica de orquestração da lógica de execução dos agentes:

A. Protocolo Baseado em IPC (Inter-Process Communication)

Isolamento: Cada agente (seja RL, LLM, VLM ou Humano) executa como um subprocesso isolado.
Comunicação: Os subprocessos comunicam-se com o processo principal via um protocolo JSON leve sobre stdin/stdout.
Vantagem: Permite integrar bibliotecas de terceiros (como CleanRL, RLlib, BALROG) sem modificar o código-fonte original. O processo principal atua apenas como um orquestrador, enviando comandos (reset, step) e recebendo respostas tipadas.
Resiliência: O sistema inclui mecanismos de "heartbeat" (batimento cardíaco) e recuperação de falhas com restauração de checkpoints.

B. Abstração de Operador (Operator Abstraction)

O MOSAIC introduz uma interface unificada chamada OperatorController.
Mapeamento: Um "Operador" mapeia um ou mais trabalhadores (workers) para slots de agentes no ambiente.
Unificação: Independentemente de o agente ser um modelo RL, um LLM ou um humano, ele deve obedecer a uma interface mínima para selecionar ações (select_action ou select_actions).
Tipos de Operadores:
- RL: Invoca frameworks como CleanRL ou XuanCe.
- LLM/VLM: Usa workers específicos (ex: BALROG para single-agent, MOSAIC LLM para multi-agent).
- Humano: Captura entrada de teclado via um worker dedicado.
- Baseline: Agentes aleatórios ou de "no-op".

C. Avaliação Cross-Paradigma Determinística

O sistema oferece dois modos de avaliação para garantir reprodutibilidade:

Modo Manual: Permite a inspeção visual passo a passo de múltiplos operadores avançando em sincronia (lock-step) sob sementes compartilhadas. A GUI exibe as visões de cada agente lado a lado com codificação de cores.
Modo Script: Execução automatizada via scripts Python declarativos, gerando telemetria em JSONL para análise estatística de longo prazo.

3. Principais Contribuições

Primeira Plataforma Unificada: Suporte nativo para quatro paradigmas de agentes (RL, LLM, VLM, Humano) em um único ambiente, permitindo a formação de equipes heterogêneas ad-hoc.
Protocolo de Trabalho Isolado: Uma arquitetura que envolve frameworks nativos e de terceiros como subprocessos, permitindo integração sem alterações no código original (glue code mínimo, ~50-120 linhas).
Interface Unificada de Agente: A abstração de "Operador" que normaliza a interação entre paradigmas distintos, mapeando observações e ações específicas de cada paradigma para um espaço de ação comum no ambiente.
Infraestrutura de Avaliação Justa: Capacidade de rodar experimentos com sementes aleatórias compartilhadas entre diferentes paradigmas, eliminando variáveis de confusão na comparação de desempenho.
Escopo Definido: O sistema foca em ambientes de mundo de grade (grid-worlds) para LLMs/VLMs, reconhecendo as limitações atuais desses modelos em controle contínuo de alta frequência (como robótica), enquanto usa RL para tarefas de controle de baixa latência.

4. Resultados e Configurações Experimentais

O artigo não apresenta resultados numéricos finais (que serão publicados em um artigo companheiro), mas define uma matriz experimental rigorosa para comparação futura:

Configurações Adversariais: Comparações diretas entre equipes homogêneas (apenas RL vs. apenas LLM) e equipes cruzadas (RL vs. LLM) para estabelecer linhas de base.
Configurações Cooperativas (Heterogêneas): Testa se um agente LLM/VLM pode cooperar efetivamente com uma política RL congelada (treinada sozinha, sem co-treinamento).
- Objetivo: Distinguir entre sinergia real (a equipe heterogênea supera as homogêneas) e interferência (o paradigma diferente degrada o desempenho).
Design de Transferência Solo-para-Equipe: Uma contribuição metodológica crucial onde os agentes RL são treinados isoladamente ( $N=1$ ) e congelados antes de serem testados em equipes mistas. Isso elimina o viés de "co-treinamento", isolando a variável do paradigma como o único fator experimental.
Suporte: A plataforma suporta 26 famílias de ambientes e 8 tipos de trabalhadores, com integração verificada de frameworks como CleanRL, XuanCe, RLlib e BALROG.

5. Significado e Impacto

O MOSAIC representa um avanço significativo na pesquisa de sistemas multi-agentes:

Ponte entre Comunidades: Facilita a colaboração entre pesquisadores de RL, NLP (LLMs) e HCI (Interação Humano-Computador), permitindo que eles testem suas hipóteses no mesmo terreno experimental.
Reprodutibilidade: Ao padronizar a interface e o protocolo de comunicação, o MOSAIC resolve o problema da fragmentação de benchmarks, permitindo comparações justas que antes eram impossíveis.
Futuro da IA Híbrida: Com a crescente integração de LLMs em sistemas autônomos, entender como esses modelos interagem com agentes tradicionais (RL) e humanos é crítico. O MOSAIC fornece a infraestrutura necessária para estudar essa "inteligência híbrida" em cenários de cooperação e competição.
Código Aberto: A disponibilidade do código (GitHub) e da documentação (ReadTheDocs) sob licença MIT incentiva a adoção rápida e a extensão pela comunidade acadêmica.

Em resumo, o MOSAIC não é apenas uma ferramenta de software, mas um novo paradigma experimental para investigar como diferentes formas de inteligência artificial e humana podem cooperar e competir em ambientes compartilhados.

MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

1. O Problema: A "Torre de Babel" dos Jogadores

2. A Solução: O MOSAIC como um "Maestro" e um "Tradutor"

3. Os Dois Modos de Jogar

Por que isso é importante?

Resumo

1. O Problema

2. Metodologia e Arquitetura

A. Protocolo Baseado em IPC (Inter-Process Communication)

B. Abstração de Operador (Operator Abstraction)

C. Avaliação Cross-Paradigma Determinística

3. Principais Contribuições

4. Resultados e Configurações Experimentais

5. Significado e Impacto

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank