LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Die Arbeit stellt LiveWorld vor, ein neues Framework für generative Videoweltmodelle, das das Problem der „außerhalb des Sichtfelds liegenden Dynamik" löst, indem es einen persistenten globalen Zustand einführt, der es Objekten erlaubt, auch außerhalb des Kamerablickfelds weiterzuentwickeln und so eine konsistente 4D-Welt-Simulation zu ermöglichen.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu

Veröffentlicht 2026-03-10
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen magischen Filmprojektor, der eine Welt erschafft. Wenn du den Projektor auf einen Hund richtest, siehst du, wie er frisst. Aber sobald du den Projektor wegdrehst, um dir eine Blume anzusehen, passiert etwas Seltsames: Der Hund in deinem Kopf (oder im Computer) friert ein. Er bleibt für immer in der Mitte eines Bisses stecken. Wenn du später wieder auf den Hund zurückdrehst, ist er immer noch genau dort, wo er war, als du weggeschaut hast. Er hat nicht weitergefressen, hat nicht aufgegessen und ist nicht weggegangen.

Das ist das Problem, das die Forscher mit LiveWorld lösen wollen.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "eingefrorene" Film

Bisherige KI-Modelle für Videowelten funktionieren wie ein Gedächtnis, das nur Fotos speichert. Wenn du einen Ort nicht siehst, denkt die KI, dort passiert nichts. Sie hält die Welt in dem Zustand fest, in dem sie sie zuletzt gesehen hat. Das ist wie ein Film, der stoppt, sobald die Kamera wegdreht. In der echten Welt passiert das aber nicht: Wenn du aus dem Zimmer gehst, kocht das Wasser weiter, der Hund frisst weiter, und die Zeit vergeht.

2. Die Lösung: LiveWorld – Die Welt läuft weiter, auch wenn niemand zuschaut

LiveWorld trennt zwei Dinge, die bisher immer zusammengekocht wurden:

  1. Was passiert? (Die Welt entwickelt sich weiter).
  2. Was sehe ich? (Die Kamera filmt das Ergebnis).

Stell dir LiveWorld wie ein großes Theaterstück vor:

  • Die Bühne (Der Hintergrund): Das ist statisch. Wände, Bäume, der Boden. Diese Dinge ändern sich nicht, also speichert die KI sie einfach als eine feste 3D-Karte (wie eine Landkarte).
  • Die Schauspieler (Die dynamischen Dinge): Das sind Hunde, Menschen, Autos. Diese Dinge bewegen sich.

3. Die Magie: Die "Wächter" (Monitors)

Das ist der coolste Teil. Wenn die Kamera wegdreht und einen Schauspieler (z. B. den Hund) nicht mehr sieht, schickt LiveWorld einen unsichtbaren Wächter (einen "Monitor") zu ihm.

  • Wie ein Zeitraffer: Dieser Wächter sitzt neben dem Hund und schaut ihm zu, wie er weiterfrisst. Er lässt die Zeit für den Hund schneller laufen, auch wenn die Hauptkamera (du) gerade woanders ist.
  • Die Synchronisation: Wenn du die Kamera wieder auf den Hund richtest, holt der Wächter den Hund genau dort ab, wo er jetzt ist (vielleicht hat er gerade den Teller geleert), und die Kamera zeigt dir das neue Bild.

Es ist, als würdest du in ein Haus gehen, den Hund im Wohnzimmer lassen und in die Küche gehen. Während du in der Küche bist, läuft der Hund im Wohnzimmer weiter rum. Wenn du zurückkommst, ist er woanders, nicht mehr an der Stelle, an der du ihn verlassen hast.

4. Warum ist das so wichtig?

Bisherige KIs waren wie ein starrer Fotograf, der nur das festhält, was er gerade sieht. LiveWorld ist wie ein lebendiger Regisseur, der die ganze Geschichte im Hintergrund weiterdreht, auch wenn die Kamera gerade auf etwas anderes gerichtet ist.

  • Ohne LiveWorld: Du drehst weg, kommst zurück, und der Hund ist immer noch im selben Biss. Das ist unrealistisch.
  • Mit LiveWorld: Du drehst weg, kommst zurück, und der Hund hat sein Essen fertig. Die Welt fühlt sich echt an, weil die Zeit weiterläuft.

Zusammenfassung in einem Satz

LiveWorld ist wie ein unsichtbares Team von Zeitreisenden, das sicherstellt, dass die Welt weiterlebt und sich entwickelt, selbst wenn niemand hinsieht, damit du beim Zurückkommen keine eingefrorene, statische Welt vorfindest, sondern eine, die sich natürlich weiterentwickelt hat.