Solaris: Building a Multiplayer Video World Model in Minecraft

Il paper introduce Solaris, un modello video mondiale multiplayer per Minecraft che supera i limiti delle prospettive singole grazie a un sistema di raccolta dati automatizzato, un framework di valutazione completo e una strategia di addestramento ibrido, permettendo la simulazione coerente di osservazioni multi-vista e interazioni tra agenti.

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

Pubblicato 2026-02-27
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un'intelligenza artificiale a capire come funziona il mondo, non solo guardando un film, ma vivendo dentro di esso.

Fino a poco tempo fa, i "modelli del mondo" (AI che prevedono il futuro basandosi sul passato) erano come registi che guardano solo un attore alla volta. Se due persone interagivano in una scena, l'AI vedeva solo ciò che faceva uno dei due, perdendo completamente la magia dell'interazione.

Il paper che hai condiviso introduce Solaris, un nuovo sistema che cambia le regole del gioco. Ecco la spiegazione semplice, con qualche metafora per renderla chiara a tutti.

1. Il Problema: Il Mondo è un Coro, non un Solista

Immagina una partita a calcio. Se guardi solo il portiere, non capisci perché il pallone entra in rete. Devi vedere anche l'attaccante che tira.
I vecchi modelli AI erano come telecamere fissate su un solo giocatore: se l'attaccante tirava, il modello vedeva il pallone volare, ma non sapeva chi lo aveva tirato o come si muoveva l'altro giocatore. Il mondo diventava confuso e magico (nel senso sbagliato del termine).

2. La Soluzione: SolarisEngine (Il Regista Invisibile)

Per insegnare all'AI a vedere tutto, gli autori hanno costruito SolarisEngine.
Pensa a questo sistema come a un enorme set cinematografico automatizzato dentro al gioco Minecraft.

  • Invece di avere un solo giocatore umano, il sistema lancia centinaia di "bot" (robot programmabili) che giocano insieme.
  • Questi bot non sono stupidi: scavano, costruiscono case, combattono mostri e si aiutano a vicenda.
  • Il sistema registra tutte le telecamere contemporaneamente: cosa vede il giocatore A, cosa vede il giocatore B, e cosa fanno le loro mani.
  • Hanno raccolto 12,6 milioni di fotogrammi di queste interazioni. È come se avessero girato milioni di ore di film dove due persone giocano insieme, per insegnare all'AI la "regola d'oro": se io muovo un blocco, anche tu lo vedi muoversi dal tuo punto di vista.

3. Il Cervello: Solaris (L'AI che impara a due occhi)

Una volta raccolti i dati, hanno addestrato il modello chiamato Solaris.
Immagina Solaris come un pittore geniale che deve disegnare due quadri contemporaneamente: uno per ogni giocatore.

  • Se il giocatore A mette un mattone, Solaris deve disegnare quel mattone nel quadro di A e nel quadro di B (magari da una distanza diversa o con un angolo diverso).
  • Se il giocatore A gira la testa, il pittore deve aggiornare entrambi i quadri istantaneamente.
  • Il trucco è che Solaris non impara tutto in una volta. Prima impara a giocare da solo (come un bambino che impara a camminare), e poi impara a giocare in coppia. Questo passaggio graduale è fondamentale per non confonderlo.

4. Il Segreto: "Checkpointed Self Forcing" (Il Metodo del Ricordo)

Qui la cosa si fa tecnica, ma usiamo una metafora semplice.
Quando un'AI crea un video lungo (ad esempio, 200 secondi di gioco), tende a dimenticare cosa è successo all'inizio e a fare errori che si accumulano (come un gioco del telefono senza fili che diventa incomprensibile).
Per risolvere questo, usano una tecnica chiamata Checkpointed Self Forcing.

  • Il problema: Per insegnare all'AI a correggersi da sola, dovresti farle vedere tutto il video che ha appena creato, ma questo richiede una memoria del computer enorme (come cercare di ricordare ogni singola parola di un libro intero mentre ne scrivi una nuova).
  • La soluzione: Immagina di scrivere un libro, ma invece di rileggerlo tutto ogni volta, scrivi solo le pagine chiave (i checkpoint) e poi le rileggi solo quando serve per correggere la trama.
  • In termini tecnici, questo permette all'AI di "ricordare" il passato senza impazzire per la memoria del computer, permettendole di creare video lunghi e coerenti dove le azioni hanno senso fino alla fine.

5. Cosa sa fare Solaris?

Grazie a tutto questo, Solaris è in grado di:

  • Costruire insieme: Se un bot costruisce una casa, l'altro la vede crescere dal suo punto di vista.
  • Combattere: Se un bot attacca un mostro, l'altro lo vede combattere.
  • Ricordare: Se un bot si nasconde dietro un albero, l'AI sa che l'altro bot non lo vede più, ma sa dove si trova.
  • Mantenere la realtà: Se piove, piove per entrambi i giocatori contemporaneamente.

In Conclusione

Solaris è come un regista futuristico che non si limita a guardare un attore, ma capisce l'intera scena, le relazioni tra gli attori e come l'ambiente cambia per tutti.
Non è solo un gioco: è un passo enorme verso robot o assistenti AI che possono lavorare in team con noi, capendo che il mondo è condiviso e che le nostre azioni influenzano ciò che vedono gli altri.

Gli autori hanno reso tutto aperto e gratuito (codice e dati), sperando che altri ricercatori possano usare questo "set cinematografico" per creare la prossima generazione di intelligenze artificiali sociali.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →