Solaris: Building a Multiplayer Video World Model in Minecraft

O artigo apresenta o Solaris, um modelo de mundo de vídeo multijogador treinado em um novo sistema de coleta de dados automatizado para Minecraft, que supera as limitações de perspectivas únicas ao simular observações multiview consistentes e interações entre múltiplos agentes através de uma pipeline de treinamento inovadora.

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

Publicado 2026-02-27
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está jogando Minecraft com um amigo. Vocês dois estão no mesmo mundo, construindo coisas, lutando contra monstros e explorando cavernas. Agora, imagine tentar ensinar um computador a "sonhar" com esse jogo, prevendo o que vai acontecer no futuro, mas com uma regra difícil: o computador precisa imaginar o que você vê e o que seu amigo vê ao mesmo tempo, e essas duas visões precisam fazer sentido uma com a outra.

Se o computador imaginar que você colocou uma pedra, mas na visão do seu amigo a pedra não aparece, ou se ele imaginar que vocês estão em lugares diferentes, o "sonho" quebra. É exatamente esse o desafio que o projeto Solaris resolveu.

Aqui está uma explicação simples do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Problema: O "Sonhador" Solitário

Antes do Solaris, os computadores que aprendiam a prever o futuro em jogos (chamados de "Modelos de Mundo") eram como solteiros. Eles podiam prever o que aconteceria se um jogador fizesse algo. Mas o mundo real (e o Minecraft) é cheio de interações entre várias pessoas.

  • A analogia: Imagine um cineasta que só sabe filmar um ator de cada vez. Se dois atores estão numa cena, ele filma o primeiro, depois o segundo, mas não consegue capturar a química entre eles ou como a ação de um afeta a câmera do outro. O resultado é um filme confuso onde as ações não batem.

2. A Solução: O "Estúdio de Gravação" (SolarisEngine)

Para treinar esse novo "sonhador", os pesquisadores precisavam de milhões de horas de gravações de jogos onde dois robôs jogavam juntos de forma inteligente. Como não existia um sistema pronto para isso, eles construíram o SolarisEngine.

  • A analogia: Pense no SolarisEngine como um estúdio de cinema robótico. Eles criaram um sistema onde dois "atores" (robôs) podem agir juntos no jogo. Um deles é o "controlador" (que decide o que fazer) e o outro é a "câmera" (que grava o que o controlador vê). Eles sincronizam tudo perfeitamente, como se fossem um único jogador, mas com duas perspectivas diferentes. Eles rodaram esse sistema e coletaram 12,6 milhões de quadros de vídeo, criando um "livro de receitas" gigante de como o jogo funciona quando duas pessoas interagem.

3. O Cérebro: O "Sonhador" Solaris

Com os dados em mãos, eles treinaram o modelo Solaris.

  • A analogia: O Solaris é como um ator de improviso extremamente talentoso. Ele não apenas assiste ao vídeo; ele entende a lógica do jogo. Se o Jogador 1 coloca uma tocha, o Solaris sabe que o Jogador 2, que está olhando de outro ângulo, também vai ver aquela tocha acender. Ele mantém a consistência: se o Jogador 1 anda para a esquerda, o Jogador 2 vê o Jogador 1 se movendo para a direita (relativamente a ele).
  • O truque de aprendizado: Eles não jogaram o modelo direto no modo "multiplayer". Foi como ensinar alguém a dirigir:
    1. Primeiro, deixaram o modelo praticar sozinho (modo single-player) para aprender as regras básicas.
    2. Depois, trouxeram o segundo jogador, mas deixaram o modelo "olhar para trás" e corrigir seus erros (treinamento bidirecional).
    3. Só então, ensinaram o modelo a prever o futuro apenas olhando para o presente (modo causal), como um jogador real faria.

4. O Grande Desafio: A Memória de Longo Prazo

Gerar vídeos longos onde duas pessoas interagem é difícil porque o computador precisa de muita memória para lembrar de tudo o que aconteceu antes. Tentar fazer isso de uma vez só esgotaria a memória do computador, como tentar segurar 100 balões de água ao mesmo tempo.

  • A Inovação (Checkpointed Self Forcing): Eles criaram uma técnica chamada "Checkpointed Self Forcing".
  • A analogia: Imagine que você está escrevendo um livro longo. Em vez de tentar lembrar de cada palavra que escreveu desde a página 1 até a página 1000 para corrigir um erro na página 500 (o que daria uma dor de cabeça enorme), você escreve o capítulo inteiro, salva o rascunho, apaga a memória do processo de escrita e depois reescreve apenas o capítulo final para corrigir os detalhes.
    • O Solaris faz isso: ele gera o vídeo, "congela" o estado intermediário para economizar memória, e depois "reprocessa" apenas o necessário para aprender com os próprios erros. Isso permite que ele crie vídeos longos e consistentes sem "quebrar" o computador.

5. O Resultado: Um Mundo Vivo

O que o Solaris consegue fazer agora?

  • Ele pode simular dois jogadores lutando, construindo uma casa juntos ou explorando uma caverna, e ambas as visões são consistentes.
  • Se um jogador coloca um bloco, o outro vê o bloco.
  • Se começa a chover no jogo, chove para os dois jogadores ao mesmo tempo.
  • Ele entende que, se um jogador se vira, o outro pode deixá-lo de vista, mas o modelo sabe que o jogador ainda está lá, mantendo a "memória" do mundo.

Por que isso importa?

O Solaris não é apenas um gerador de vídeos legais. É um passo gigante para criar Inteligências Artificiais que jogam juntas.

  • Para o futuro: Imagine robôs reais que precisam trabalhar em equipe (como em uma fábrica ou em missões de resgate). Eles precisam entender o que o colega está vendo e fazendo. O Solaris prova que podemos criar "cérebros" artificiais que entendem a perspectiva de múltiplos agentes ao mesmo tempo.

Resumo em uma frase:
Os pesquisadores criaram um "estúdio de gravação" robótico e um "cérebro" de IA capaz de sonhar com um mundo de Minecraft onde dois jogadores interagem perfeitamente, mantendo a lógica e a consistência visual em ambas as perspectivas, mesmo em cenas longas e complexas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →