UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Das Paper stellt UltraViCo vor, eine trainingsfreie Methode, die durch die Unterdrückung der Aufmerksamkeit für Tokens außerhalb des Trainingsfensters die Extrapolationsgrenze von Video-Diffusions-Transformern von 2x auf 4x erweitert und dabei sowohl periodische Wiederholungen als auch Qualitätsverluste effektiv behebt.

Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

Veröffentlicht 2026-03-03
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der Film, der sich im Kreis dreht und unscharf wird

Stell dir vor, du hast einen genialen Regisseur (den KI-Modell), der fantastische 5-Sekunden-Videos drehen kann. Aber wenn du ihn bittest, einen 20-Sekunden-Film zu machen (also viermal länger als gewohnt), passiert etwas Seltsames:

  1. Der „Schleifen-Effekt": In manchen Fällen fängt der Regisseur an, denselben kleinen Ausschnitt immer und immer wieder abzudrehen. Ein Vogel fliegt, landet, fliegt, landet – wie eine kaputte DVD, die in einer Schleife hängt.
  2. Der „Milchglas-Effekt": In anderen Fällen wird das Bild einfach nur unscharf und statisch. Alles wirkt wie unter einer dicken Milchglasscheibe. Die Bewegung friert ein, und die Details verschwimmen.

Bisherige Methoden haben versucht, das Problem zu lösen, indem sie dem Regisseur neue „Notizen" (Positionscodes) gegeben haben, damit er weiß, wo er sich im Film befindet. Das hat die Schleife manchmal gestoppt, aber das Bild blieb trotzdem unscharf.

Die Entdeckung: Der verwirrte Blick des Regisseurs

Die Forscher von UltraViCo haben sich genauer angesehen, wie der Regisseur schaut. Sie haben entdeckt, dass das eigentliche Problem nicht die Notizen sind, sondern der Blick des Regisseurs (die sogenannte „Aufmerksamkeit" oder Attention).

Stell dir vor, der Regisseur sitzt in einem kleinen Raum (dem Trainingsfenster), in dem er gelernt hat, Filme zu drehen. Wenn er nun einen viel längeren Film drehen soll, schaut er plötzlich in den riesigen, dunklen Saal hinaus.

  • Das Problem: Sein Blick wird zerstreut (Attention Dispersion). Er versucht, auf alles gleichzeitig zu schauen – auf die ersten 5 Sekunden, aber auch auf die fernen 20. Sekunden.
  • Die Folge: Weil er sich auf nichts konzentrieren kann, wird das Bild unscharf (Milchglas-Effekt).
  • Der Schleifen-Effekt: Bei manchen Regisseuren (bestimmten Modellen) führt diese Zerstreutheit dazu, dass sein Blick in einem seltsamen Rhythmus hin und her springt. Er schaut immer wieder auf denselben Moment zurück, weil die mathematischen „Frequenzen" in seinem Kopf sich wie ein Echo überlagern.

Die Lösung: UltraViCo – Der „Fokus-Filter"

UltraViCo ist eine clevere, kostenlose Methode, die den Regisseur nicht neu ausbilden muss, sondern ihm einfach eine Brille aufsetzt.

Die Analogie:
Stell dir vor, der Regisseur trägt eine Brille mit einem dunklen Filter.

  • Alles, was innerhalb des vertrauten Raumes (der ersten 5 Sekunden) passiert, sieht er klar und hell.
  • Alles, was außerhalb dieses Raumes liegt (die neuen, langen Teile des Films), wird durch den Filter gedimmt.

Wie funktioniert das?
Die Methode sagt dem Regisseur im Grunde: „Konzentriere dich zu 100 % auf das, was du kennst. Wenn du auf die neuen, fernen Teile schaust, dämpfe deinen Blick ein wenig."

  • Das verhindert, dass der Blick zerstreut wird (kein Milchglas mehr!).
  • Es bricht auch den seltsamen Rhythmus, der die Schleifen verursacht, weil die „Echos" im fernen Raum nicht mehr laut genug sind, um den Blick zu stören.

Das Ergebnis: Von 2x auf 4x möglich

Dank dieser einfachen „Fokus-Brille" passiert Magie:

  • Keine Schleifen mehr: Der Film läuft flüssig durch, ohne sich zu wiederholen.
  • Klare Bilder: Die Details bleiben scharf, und die Bewegungen wirken natürlich.
  • Längere Filme: Während andere Methoden bei der 2-fachen Länge (10 Sekunden) schon versagen, schafft UltraViCo problemlos die 4-fache Länge (20 Sekunden) und sieht dabei sogar besser aus als die besten bisherigen Methoden.

Zusammenfassend:
UltraViCo ist wie ein Dirigent, der einem Orchester sagt: „Spielt die neue, lange Musik, aber hört nicht auf das ferne Echo im Saal. Konzentriert euch auf das, was ihr vor euch habt." Das Ergebnis ist ein langer, klarer Film ohne Schleifen und ohne Unscharfheit – und das, ohne dass das Orchester neu lernen muss.