InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Das Paper stellt InfinityStory vor, ein neuartiges Framework, Dataset und Modell, das durch konsistente Hintergründe, nahtlose Übergänge zwischen mehreren Subjekten und Skalierbarkeit auf stundenlange Erzählungen die Herausforderungen der langformatigen Videoerstellung löst und dabei auf VBench neue Bestwerte in Bezug auf Konsistenz und Kohärenz erzielt.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen ganzen Spielfilm über eine Stunde lang erzählen, aber du hast keine Schauspieler, keine Kamera und kein Studio. Stattdessen hast du nur einen Computer und eine Geschichte. Das Problem bei bisherigen KI-Systemen war, dass sie zwar tolle Bilder machen konnten, aber wenn man sie zu einem Film zusammenschnitt, sah es aus wie ein Chaos: Die Wände im Hintergrund änderten plötzlich ihre Farbe, die Charaktere tauchten aus dem Nichts auf oder verschwanden wie Geister, und die Szenen wirkten nicht zusammengehörig.

Die Forscher von InfinityStory haben jetzt eine Lösung entwickelt, die wie ein perfekter Filmregisseur mit einem magischen Gedächtnis funktioniert. Hier ist die Erklärung, wie das alles funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Flimmernde" Film

Bisherige KIs waren wie ein vergesslicher Maler. Wenn er eine Szene malte, sah sie toll aus. Aber wenn er zur nächsten Szene überging, vergaß er oft, wie die alte Wand aussah.

  • Hintergrund-Drift: Die Landschaft oder das Zimmer veränderte sich langsam, als würde der Maler die Farben verwischen.
  • Geister-Charaktere: Ein Held ging durch eine Tür und war in der nächsten Einstellung plötzlich weg, ohne dass man sah, wie er ging. Oder er tauchte plötzlich auf, ohne einzutreten.

2. Die Lösung: InfinityStory – Der Regisseur mit dem "Orts-Gedächtnis"

InfinityStory nutzt drei geniale Tricks, um das zu beheben:

A. Der "Orts-Stein" (Hintergrund-Konsistenz)

Stell dir vor, du baust ein Filmset. Bei InfinityStory baut die KI zuerst feste Kulissen (Orte) wie ein Schloss, ein Wald oder eine Küche. Diese Kulissen werden einmal erstellt und dann nie wieder verändert.

  • Die Analogie: Es ist wie bei einem Theaterstück. Die Bühne (der Hintergrund) bleibt stehen. Wenn die Schauspieler (die Charaktere) die Bühne betreten, werden sie einfach auf diese feste Bühne projiziert.
  • Der Vorteil: Egal wie oft die Kamera schneidet, das Schloss sieht immer gleich aus. Die Wände wackeln nicht, das Licht bleibt stabil. Das nennt die Forscher "Hintergrund-Injektion".

B. Der "Magische Übergang" (Szenenwechsel)

Das ist das Geniale an der neuen Methode. Früher haben KIs Szenen einfach aneinandergereiht, wie zwei verschiedene Fotos. Das sah ruckelig aus.

  • Die Analogie: Stell dir vor, du hast zwei Fotos. Auf dem ersten ist ein Mann im Raum, auf dem zweiten ist er draußen. Ein normaler Schnitt würde den Mann einfach verschwinden lassen. InfinityStory hingegen filmt den Übergang. Es zeigt genau, wie der Mann zur Tür geht, die Tür öffnet und hinausgeht.
  • Die Technik: Die KI hat eine riesige Bibliothek von 10.000 Beispielen gelernt, wie sich Menschen bewegen, wenn sie hereinkommen, gehen oder sich austauschen. Sie nutzt diese Daten, um die "Lücke" zwischen zwei Szenen mit einem flüssigen Filmclip zu füllen. Niemand verschwindet plötzlich; alles fließt.

C. Das "Multi-Agenten-Team" (Der Produktionsstab)

Damit das alles klappt, arbeiten nicht nur zwei KIs zusammen, sondern ein ganzes Team von virtuellen Assistenten (Agenten), die wie ein echtes Filmteam agieren:

  1. Der Drehbuchautor: Plant die Geschichte in Kapitel.
  2. Der Locationscout: Sucht die festen Kulissen aus und stellt sicher, dass sie nicht verwirren.
  3. Der Regisseur: Plant genau, wer wann hereinkommt und wie die Kamera schwenkt.
  4. Der Schnittmeister: Verbindet die Szenen so, dass die Übergänge (die "Geister"-Probleme) verschwinden.

3. Das Ergebnis: Ein echter Film statt eines Flickenteppichs

Wenn man InfinityStory eine Geschichte gibt, entsteht am Ende ein Video, das sich wie ein echter Film anfühlt:

  • Die Welt bleibt stabil (das Schloss ist immer dasselbe Schloss).
  • Die Charaktere sind konsistent (der Held sieht immer gleich aus).
  • Die Übergänge sind sanft (niemand teleportiert sich).

Die Forscher haben ihren neuen Film-Generator auf einer großen Liste von Tests (VBench) getestet und gewonnen. Er ist besser als alle bisherigen Systeme darin, die Welt konsistent zu halten und die Charaktere flüssig zu bewegen.

Zusammenfassend:
InfinityStory ist wie ein unermüdlicher Filmemacher, der nie vergisst, wie die Kulisse aussieht, und der weiß genau, wie man eine Tür öffnet, damit ein Charakter nicht einfach aus dem Nichts erscheint. Es ist der erste Schritt, um mit KI wirklich lange, zusammenhängende und magische Geschichten zu erzählen, ohne dass es sich nach einem verrückten Traum anfühlt.