ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Die Arbeit stellt ShareVerse vor, ein Multi-Agenten-Video-Generierungsframework, das durch ein neuartiges CARLA-Datenset, eine räumliche Verkettungsstrategie für Vier-Sicht-Videos und integrierte Cross-Agenten-Aufmerksamkeitsblöcke konsistente gemeinsame Weltmodelle mit multi-agenten Interaktion ermöglicht.

Jiayi Zhu, Jianing Zhang, Yiying Yang, Wei Cheng, Xiaoyun Yuan

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du und ein Freund spielt ein Videospiel, aber ihr seid nicht auf demselben Bildschirm. Du siehst die Welt aus deiner Perspektive, er aus seiner. Das Problem bei den meisten aktuellen KI-Systemen ist: Wenn du einen Baum siehst, weiß der Computer deines Freundes nicht unbedingt, dass dieser Baum auch in seiner Welt existiert. Jeder hat seine eigene, getrennte Realität.

Das Papier „ShareVerse" möchte das ändern. Es ist wie ein Zaubertrick, der zwei getrennte Welten zu einer einzigen, gemeinsamen Realität verschmilzt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Der große Datensatz: Ein riesiges Filmstudio (CARLA)

Um eine KI zu lehren, wie eine gemeinsame Welt funktioniert, braucht man unzählige Beispiele. In der echten Welt zwei Autos zu filmen, die sich perfekt synchron bewegen, wäre extrem teuer und chaotisch.

Die Forscher haben stattdessen ein digitales Filmstudio (eine Simulation namens CARLA) gebaut.

  • Das Szenario: Sie haben zwei „KI-Autos" (Agenten) in eine virtuelle Stadt gesetzt.
  • Die Kameras: Jedes Auto hat vier Kameras (vorne, hinten, links, rechts), wie ein Panoramafoto.
  • Die Aktion: Die Autos fahren durch verschiedene Szenen (Regen, Sonne, Kreuzungen) und interagieren miteinander.
  • Das Ergebnis: Sie haben 55.000 Paare von Videosequenzen gesammelt. Es ist wie ein riesiges Drehbuch, in dem genau festgehalten ist, was Auto A sieht, während Auto B genau das Gleiche aus einer anderen Perspektive sieht.

2. Die Technik: Der „Spiegel-Effekt" und das „Telefon-Spiel"

Die KI nutzt ein bestehendes Video-Modell (ein sehr kluger Künstler, der Videos malen kann), aber sie hat zwei neue Werkzeuge bekommen:

A. Der „Riesen-Panoramafoto"-Trick (Räumliche Verkettung)

Stell dir vor, du willst einem Maler beschreiben, wie ein Auto aussieht. Wenn du ihm nur ein Foto von der Front zeigst, weiß er nicht, wie die Rückseite aussieht.

  • Die Lösung: ShareVerse nimmt die vier Kameras eines Autos und klebt sie zu einem einzigen, riesigen Panoramabild zusammen.
  • Der Vorteil: Die KI sieht sofort das ganze Auto und seine Umgebung auf einmal. Das sorgt dafür, dass die KI nicht vergisst, dass die linke Seite des Autos auch existiert, wenn sie die rechte Seite malt. Es ist wie ein 360-Grad-Spiegel, der die KI daran erinnert, dass die Welt rundum zusammenhängt.

B. Der „Gedankenübertragung"-Modul (Cross-Agent Attention)

Das ist der magischste Teil. Normalerweise malt jede KI nur für sich. ShareVerse fügt eine Art Gedankenübertragung zwischen den beiden Autos ein.

  • Wie es funktioniert: Während das erste Auto eine Szene malt, schickt es sofort Informationen an das zweite Auto: „Hey, ich sehe gerade einen roten Bus!"
  • Das Ergebnis: Das zweite Auto malt dann auch den roten Bus in seine eigene Szene, genau an der richtigen Stelle und in der richtigen Größe.
  • Das Ziel: Wenn sich die Sichtfelder der beiden Autos überschneiden (sie sehen denselben Ort), müssen sie exakt dasselbe sehen. Wenn sie in verschiedene Richtungen schauen, füllt die KI den Rest der Welt logisch auf, basierend auf dem, was sie bereits wissen.

3. Das Ergebnis: Eine Welt, die für alle gleich ist

Am Ende passiert Folgendes:

  • Konsistenz: Wenn Auto A einen Baum links sieht, sieht Auto B denselben Baum rechts, wenn es sich dreht. Es gibt keine „Geister-Bäume", die nur für ein Auto existieren.
  • Dynamik: Die KI kann nicht nur statische Bilder malen, sondern versteht, wie sich Dinge bewegen. Wenn sich Auto A bewegt, passt sich die Welt für Auto B automatisch an.
  • Länge: Sie können ganze Videosequenzen (49 Bilder in Folge) generieren, die sich wie ein echter Film anfühlen, nicht nur wie ein einzelnes Standbild.

Warum ist das wichtig? (Die Analogie zum Teamwork)

Stell dir vor, du und dein Freund bauen ein riesiges Puzzle.

  • Ohne ShareVerse: Ihr habt zwei getrennte Puzzle-Kisten. Ihr baut beide ein Schloss, aber bei euch ist das Tor links, bei ihm rechts. Wenn ihr zusammenarbeitet, passt es nicht.
  • Mit ShareVerse: Ihr habt eine gemeinsame Kiste. Wenn du ein Puzzleteil legst, weiß dein Freund sofort, wo es hinfällt. Ihr baut nicht zwei verschiedene Schlösser, sondern ein einziges, riesiges Schloss, das für beide gleich aussieht, egal von welcher Seite ihr es betrachtet.

Zusammenfassend: ShareVerse ist der erste Schritt zu einer KI, die eine Welt versteht, in der mehrere Wesen (Roboter, Autos, Spieler) gleichzeitig existieren und interagieren, ohne dass die Realität für jeden von ihnen anders aussieht. Es ist der Grundstein für zukünftige Roboter-Teams oder Multiplayer-Spiele, die sich wie die echte Welt verhalten.