Solaris: Building a Multiplayer Video World Model in Minecraft

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está jogando Minecraft com um amigo. Vocês dois estão no mesmo mundo, construindo coisas, lutando contra monstros e explorando cavernas. Agora, imagine tentar ensinar um computador a "sonhar" com esse jogo, prevendo o que vai acontecer no futuro, mas com uma regra difícil: o computador precisa imaginar o que você vê e o que seu amigo vê ao mesmo tempo, e essas duas visões precisam fazer sentido uma com a outra.

Se o computador imaginar que você colocou uma pedra, mas na visão do seu amigo a pedra não aparece, ou se ele imaginar que vocês estão em lugares diferentes, o "sonho" quebra. É exatamente esse o desafio que o projeto Solaris resolveu.

Aqui está uma explicação simples do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Problema: O "Sonhador" Solitário

Antes do Solaris, os computadores que aprendiam a prever o futuro em jogos (chamados de "Modelos de Mundo") eram como solteiros. Eles podiam prever o que aconteceria se um jogador fizesse algo. Mas o mundo real (e o Minecraft) é cheio de interações entre várias pessoas.

A analogia: Imagine um cineasta que só sabe filmar um ator de cada vez. Se dois atores estão numa cena, ele filma o primeiro, depois o segundo, mas não consegue capturar a química entre eles ou como a ação de um afeta a câmera do outro. O resultado é um filme confuso onde as ações não batem.

2. A Solução: O "Estúdio de Gravação" (SolarisEngine)

Para treinar esse novo "sonhador", os pesquisadores precisavam de milhões de horas de gravações de jogos onde dois robôs jogavam juntos de forma inteligente. Como não existia um sistema pronto para isso, eles construíram o SolarisEngine.

A analogia: Pense no SolarisEngine como um estúdio de cinema robótico. Eles criaram um sistema onde dois "atores" (robôs) podem agir juntos no jogo. Um deles é o "controlador" (que decide o que fazer) e o outro é a "câmera" (que grava o que o controlador vê). Eles sincronizam tudo perfeitamente, como se fossem um único jogador, mas com duas perspectivas diferentes. Eles rodaram esse sistema e coletaram 12,6 milhões de quadros de vídeo, criando um "livro de receitas" gigante de como o jogo funciona quando duas pessoas interagem.

3. O Cérebro: O "Sonhador" Solaris

Com os dados em mãos, eles treinaram o modelo Solaris.

A analogia: O Solaris é como um ator de improviso extremamente talentoso. Ele não apenas assiste ao vídeo; ele entende a lógica do jogo. Se o Jogador 1 coloca uma tocha, o Solaris sabe que o Jogador 2, que está olhando de outro ângulo, também vai ver aquela tocha acender. Ele mantém a consistência: se o Jogador 1 anda para a esquerda, o Jogador 2 vê o Jogador 1 se movendo para a direita (relativamente a ele).
O truque de aprendizado: Eles não jogaram o modelo direto no modo "multiplayer". Foi como ensinar alguém a dirigir:
1. Primeiro, deixaram o modelo praticar sozinho (modo single-player) para aprender as regras básicas.
2. Depois, trouxeram o segundo jogador, mas deixaram o modelo "olhar para trás" e corrigir seus erros (treinamento bidirecional).
3. Só então, ensinaram o modelo a prever o futuro apenas olhando para o presente (modo causal), como um jogador real faria.

4. O Grande Desafio: A Memória de Longo Prazo

Gerar vídeos longos onde duas pessoas interagem é difícil porque o computador precisa de muita memória para lembrar de tudo o que aconteceu antes. Tentar fazer isso de uma vez só esgotaria a memória do computador, como tentar segurar 100 balões de água ao mesmo tempo.

A Inovação (Checkpointed Self Forcing): Eles criaram uma técnica chamada "Checkpointed Self Forcing".
A analogia: Imagine que você está escrevendo um livro longo. Em vez de tentar lembrar de cada palavra que escreveu desde a página 1 até a página 1000 para corrigir um erro na página 500 (o que daria uma dor de cabeça enorme), você escreve o capítulo inteiro, salva o rascunho, apaga a memória do processo de escrita e depois reescreve apenas o capítulo final para corrigir os detalhes.
- O Solaris faz isso: ele gera o vídeo, "congela" o estado intermediário para economizar memória, e depois "reprocessa" apenas o necessário para aprender com os próprios erros. Isso permite que ele crie vídeos longos e consistentes sem "quebrar" o computador.

5. O Resultado: Um Mundo Vivo

O que o Solaris consegue fazer agora?

Ele pode simular dois jogadores lutando, construindo uma casa juntos ou explorando uma caverna, e ambas as visões são consistentes.
Se um jogador coloca um bloco, o outro vê o bloco.
Se começa a chover no jogo, chove para os dois jogadores ao mesmo tempo.
Ele entende que, se um jogador se vira, o outro pode deixá-lo de vista, mas o modelo sabe que o jogador ainda está lá, mantendo a "memória" do mundo.

Por que isso importa?

O Solaris não é apenas um gerador de vídeos legais. É um passo gigante para criar Inteligências Artificiais que jogam juntas.

Para o futuro: Imagine robôs reais que precisam trabalhar em equipe (como em uma fábrica ou em missões de resgate). Eles precisam entender o que o colega está vendo e fazendo. O Solaris prova que podemos criar "cérebros" artificiais que entendem a perspectiva de múltiplos agentes ao mesmo tempo.

Resumo em uma frase:
Os pesquisadores criaram um "estúdio de gravação" robótico e um "cérebro" de IA capaz de sonhar com um mundo de Minecraft onde dois jogadores interagem perfeitamente, mantendo a lógica e a consistência visual em ambas as perspectivas, mesmo em cenas longas e complexas.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Solaris – Um Modelo de Mundo de Vídeo Multiplayer

1. O Problema

Os modelos de mundo de vídeo existentes (video world models) são fundamentalmente limitados a perspectivas de agente único. Eles conseguem prever futuras observações com base em ações passadas de um único agente, mas falham em capturar as interações complexas e as perspectivas múltiplas de ambientes reais, onde vários agentes coexistem e interagem.

Desafio Principal: Gerar observações consistentes não apenas ao longo do tempo, mas também entre diferentes perspectivas de agentes. Uma ação realizada por um agente (ex: mover-se ou colocar um bloco) deve ser refletida simultaneamente e com precisão nas visões de todos os outros agentes.
Limitação de Dados: Não existiam sistemas públicos capazes de simular e coletar dados de gameplay multiplayer de Minecraft de forma coordenada e com renderização visual realista, o que dificultava o treinamento de tais modelos.

2. Metodologia

A equipe propôs uma solução completa composta por três pilares principais: um sistema de coleta de dados (SolarisEngine), um modelo de arquitetura (Solaris) e um pipeline de treinamento escalonado.

A. SolarisEngine: Sistema de Coleta de Dados Multiplayer
Para superar a falta de dados, os autores desenvolveram o SolarisEngine, um framework baseado em Docker para coletar gameplay multiplayer em escala.

Arquitetura: Utiliza bots controlados via Mineflayer (JavaScript) para executar ações de alto nível (mineração, construção, combate) e bots de "câmera" que rodam o cliente oficial do Minecraft em modo headless com renderização GPU.
Sincronização: Um plugin personalizado no servidor sincroniza o estado e as ações do bot controlador com o bot de câmera em tempo real, garantindo que as ações e as observações visuais estejam perfeitamente alinhadas por timestamps.
Dataset: Coletaram 12,64 milhões de quadros (6,32 milhões por jogador) cobrindo episódios de construção, combate, movimento e mineração em mundos gerados proceduralmente.

B. Arquitetura do Modelo Solaris
O Solaris é um modelo de difusão de vídeo adaptado de um modelo pré-treinado de agente único (Matrix Game 2.0).

Entrada: O modelo recebe sequências de observações passadas e ações de múltiplos agentes.
Mecanismo Multiplayer: Introduz Atenção Multiplayer (Multiplayer Self-Attention) nos blocos do Diffusion Transformer (DiT).
- As informações são trocadas entre os jogadores através de camadas de atenção compartilhadas.
- Embeddings de ID do jogador são injetados nos tokens de cada jogador para diferenciar as perspectivas.
- As ações são condicionadas independentemente por jogador, mas o espaço de estado é expandido para incluir a dimensão do jogador.

C. Pipeline de Treinamento Escalonado
O treinamento segue quatro estágios para garantir estabilidade e coerência:

Fase 1 (Bidirecional - Single-Player): Fine-tuning do modelo base em dados de Minecraft de jogador único (dataset VPT) para estabelecer uma base sólida de física e ações.
Fase 2 (Bidirecional - Multiplayer): Adaptação para dados multiplayer, treinando com difusão em sequência completa para aprender a consistência entre visões.
Fase 3 (Causal - Multiplayer): Conversão para um modelo causal (geração autoregressiva) usando Diffusion Forcing e máscaras de janela deslizante, permitindo geração de longo prazo.
Fase 4 (Self Forcing): Uso da técnica Self Forcing para melhorar a geração de longo prazo, onde o modelo é supervisionado por suas próprias gerações.

D. Checkpointed Self Forcing
Uma contribuição técnica crucial para viabilizar o treinamento de longo prazo.

Problema: Aplicar Self Forcing com janelas deslizantes gera um custo de memória proibitivo ( $O(L_t \cdot L_s)$ ) devido à necessidade de reter todas as janelas sobrepostas para retropropagação.
Solução: Os autores propõem o Checkpointed Self Forcing, análogo ao Gradient Checkpointing.
- O modelo gera o vídeo autoregressivamente e armazena apenas os estados intermediários (quadros ruidosos e limpos) sem calcular gradientes.
- Em seguida, recompute o vídeo em um único passo paralelo com a retropropagação habilitada.
- Isso reduz o custo de memória para $O(L_t)$ e permite o uso de um "professor" de contexto mais longo, melhorando a qualidade da geração.

3. Resultados

O modelo foi avaliado em um novo benchmark focado em cinco capacidades: Movimento, Grounding (ancoragem espacial), Memória, Construção e Consistência de Visão.

Desempenho Quantitativo: O Solaris superou significativamente as baselines (incluindo o método de concatenação de quadros do Multiverse e modelos sem pré-treinamento) em todas as métricas, especialmente em FID (qualidade visual) e VLM Score (aderência semântica avaliada por um Modelo de Linguagem Visual).
- Exemplo: Na tarefa de "Construção", o Solaris obteve 20.8% de acurácia VLM, enquanto a concatenação de quadros obteve 0.0%.
Desempenho Qualitativo:
- O modelo gera vídeos estáveis e coerentes por longos horizontes (ex: 224 quadros).
- Mantém a consistência de texturas e animações complexas (ex: colocar tochas, atualizar inventário, chuva simultânea para ambos os jogadores).
- Demonstra capacidade de "Grounding": se um jogador se vira e volta, o modelo lembra corretamente a posição do outro jogador, mesmo que temporariamente fora do campo de visão.
Ablação: A técnica Checkpointed Self Forcing com retropropagação através dos estados ocultos (KV) melhorou a qualidade visual, embora tenha um leve impacto no rastreamento de ações em algumas categorias.

4. Contribuições Chave

SolarisEngine: O primeiro sistema escalável e robusto para coleta de dados de gameplay multiplayer coordenado com renderização visual realista.
Dataset Multiplayer: A liberação de um dataset de 12,64 milhões de quadros anotados de ações, o primeiro do tipo para Minecraft multiplayer.
Modelo Solaris: Uma arquitetura de modelo de mundo de vídeo que adapta Diffusion Transformers para simular perspectivas múltiplas consistentes.
Checkpointed Self Forcing: Uma nova técnica eficiente em memória para treinamento autoregressivo de longo prazo, permitindo o uso de professores de contexto mais longos.
Benchmark de Avaliação: Um conjunto de testes rigorosos para avaliar memória, consistência de visão e interações multi-agente.

5. Significado e Impacto

O trabalho representa um avanço fundamental na direção de modelos de mundo para agentes múltiplos.

Para IA Embutida: Permite treinar agentes que podem planejar e agir em ambientes compartilhados, entendendo como suas ações afetam a percepção de outros agentes.
Para Geração de Dados: O sistema pode ser usado para gerar dados sintéticos de alta qualidade para treinar modelos de Visão-Linguagem-Ação (VLA) em cenários colaborativos.
Limitações e Futuro: O modelo ainda depende de dados sintéticos (o que cria uma lacuna de generalização para o mundo real) e carece de memória persistente de longo prazo (o mundo "esquece" o contexto quando os jogadores saem da visão um do outro). No entanto, o Solaris estabelece a base para a próxima geração de modelos de mundo multi-agente.

Em resumo, o Solaris demonstra que é possível simular consistentemente um mundo compartilhado entre múltiplos agentes, superando as limitações de perspectiva única dos modelos atuais através de uma combinação inovadora de engenharia de dados, arquitetura de rede e técnicas de treinamento eficientes.

Solaris: Building a Multiplayer Video World Model in Minecraft

1. O Problema: O "Sonhador" Solitário

2. A Solução: O "Estúdio de Gravação" (SolarisEngine)

3. O Cérebro: O "Sonhador" Solaris

4. O Grande Desafio: A Memória de Longo Prazo

5. O Resultado: Um Mundo Vivo

Por que isso importa?

Resumo Técnico: Solaris – Um Modelo de Mundo de Vídeo Multiplayer

1. O Problema

2. Metodologia

3. Resultados

4. Contribuições Chave

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation