Arbitrary Generative Video Interpolation

Each language version is independently generated for its own context, not a direct translation.

🎬 Das Problem: Der starre Film-Editor

Stell dir vor, du hast zwei Fotos: eines von einem springenden Hund am Anfang und eines davon, wie er landet. Du möchtest einen Film dazwischen machen, der zeigt, wie der Hund springt.

Bisherige KI-Modelle waren wie starre Automaten. Wenn du sagtest: „Mach mir 4 Bilder dazwischen", dann machten sie genau 4. Wenn du sagst: „Mach mir 100 Bilder", dann machten sie 100. Aber sie konnten nicht flexibel sein.

Du wolltest den Hund genau in der Mitte des Sprungs sehen? Der alte Automat sagte: „Nein, ich kann nur bei 25%, 50% oder 75% stoppen."
Du wolltest den Sprung extrem langsam (wie in einer Tränen-Drama-Szene) oder extrem schnell (wie in einem Actionfilm) zeigen? Das ging nicht einfach so.

Die alten Methoden waren wie ein Festgeklebter Filmstreifen: Die Abstände zwischen den Bildern waren immer gleich. Man konnte nichts ändern, ohne den ganzen Streifen neu zu schneiden.

🚀 Die Lösung: ArbInterp – Der „Magische Zeit-Regler"

Die Forscher haben eine neue Methode namens ArbInterp entwickelt. Stell dir das wie einen intelligenten Filmregisseur vor, der nicht auf starre Anweisungen hört, sondern auf deine Gedanken.

Mit ArbInterp kannst du sagen: „Zeig mir den Hund genau in diesem Moment, wenn er die höchste Punkt erreicht" oder „Zeig mir den Moment, 0,03 Sekunden nachdem er den Boden berührt hat."

Das Besondere: Du kannst jeden beliebigen Zeitpunkt und beliebig viele Bilder dazwischen generieren. Es ist, als hättest du einen Film, der sich in Zeitlupe, Echtzeit oder Zeitraffer verwandeln lässt, ohne dass die Qualität leidet.

🔑 Wie funktioniert das? (Die zwei genialen Tricks)

Um das zu erreichen, nutzen die Forscher zwei clevere Tricks, die wie Werkzeuge in einer Werkstatt wirken:

1. Der „Zeit-Kompass" (TaRoPE)

In normalen KI-Modellen wissen die Bilder nicht, wann sie passieren. Sie wissen nur: „Ich bin Bild Nr. 1, ich bin Bild Nr. 2". Das ist wie ein Zug, bei dem die Waggons nur Nummern haben, aber keine Uhrzeit.

ArbInterp gibt jedem Bild einen Zeitstempel (eine Uhrzeit), genau wie bei einem Zug, der an einem Bahnhof ankommt.

Das Startbild hat die Uhrzeit 0:00.
Das Endbild hat die Uhrzeit 1:00.
Das KI-Modell lernt nun: „Ah, ich soll ein Bild für 0:42 erstellen."

Dafür haben sie eine neue Art von „Kompass" (genannt TaRoPE) eingebaut. Dieser Kompass sagt dem Modell nicht nur „du bist der 5. Waggon", sondern „du bist genau 42% der Reise". Dadurch kann das Modell den Sprung des Hundes an jedem Punkt der Zeit perfekt berechnen, egal ob du 2 Bilder oder 1000 Bilder dazwischen willst.

2. Der „Nahtlose Übergang" (Trennung von Aussehen und Bewegung)

Wenn man einen sehr langen Film in viele kleine Abschnitte schneidet und die KI jeden Abschnitt einzeln macht, passiert oft ein Problem: Der Hund sieht im ersten Abschnitt rot aus und im zweiten plötzlich blau, oder er hüpft ruckartig.

Stell dir vor, du schreibst eine Geschichte mit mehreren Autoren. Jeder schreibt ein Kapitel. Ohne Absprache würde der Held im ersten Kapitel einen Bart haben und im zweiten glatt sein.

ArbInterp löst das, indem es Aussehen und Bewegung trennt:

Aussehen (Der Look): Die KI schaut sich das letzte Bild des vorherigen Abschnitts an und sagt: „Okay, der Hund muss hier genau so aussehen wie im letzten Bild." (Das ist wie ein Fotograf, der sicherstellt, dass die Kleidung gleich bleibt).
Bewegung (Die Action): Die KI extrahiert die „Bewegungs-Energie" (wie schnell und wohin der Hund fliegt) und gibt diese Information als unsichtbaren Befehl an den nächsten Abschnitt weiter.

Dadurch fühlt sich der Film an, als wäre er in einem einzigen, langen Atemzug entstanden, obwohl er in kleinen Stücken berechnet wurde.

🏆 Das Ergebnis: Besser, schneller, flexibler

Die Forscher haben ihre Methode an einem riesigen Benchmark getestet (einem großen Test mit verschiedenen Szenarien).

Ergebnis: ArbInterp ist nicht nur flexibler (du kannst den Zeitplan frei wählen), sondern macht auch schönere und flüssigere Filme als alle bisherigen Methoden.
Vergleich: Während alte Methoden bei vielen Zwischenbildern oft unscharf wurden oder den Hund verzerrten, bleibt ArbInterp stabil und realistisch, selbst wenn man den Sprung in 32-facher Geschwindigkeit (oder 32-facher Zeitlupe) betrachtet.

🌟 Zusammenfassung für den Alltag

Stell dir vor, du hast einen Video-Editor, der nicht mehr fragt: „Wie viele Bilder willst du dazwischen?", sondern fragt: „An welcher Stelle der Zeit soll ich das Bild zeigen?"

Mit ArbInterp kannst du den Film deiner Träume gestalten:

Willst du eine Action-Szene in Zeitlupe? Kein Problem.
Willst du einen langweiligen Moment überspringen? Kein Problem.
Willst du den perfekten Moment genau in der Mitte eines Sprungs einfangen? Die KI findet ihn genau dort.

Es ist der Unterschied zwischen einem starren Automaten und einem kreativen Künstler, der genau weiß, was du dir vorstellst, egal wie du es beschreibst.

Each language version is independently generated for its own context, not a direct translation.

Titel: Arbitrary Generative Video Interpolation (ArbInterp)

Veröffentlicht: ICLR 2026 (Conference Paper)
Autoren: Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang (Nanjing University, Tencent Hunyuan, Shanghai AI Laboratory)

1. Problemstellung

Bestehende Methoden zur generativen Video-Frames-Interpolation (VFI) sind stark eingeschränkt, da sie typischerweise nur eine feste Anzahl von Zwischenbildern zwischen einem Start- und einem Endbild erzeugen können.

Mangelnde Flexibilität: Nutzer können den Bildwiederholraten (FPS) oder die Dauer des Videos während des Erstellungsprozesses nicht dynamisch anpassen.
Starre Positionierung: Herkömmliche Ansätze nutzen feste Positionscodierungen (z. B. basierend auf dem Index im Video-Clip), was die Modellierung kontinuierlicher Bewegungsfelder behindert.
Skalierungsprobleme: Bei langen Videos oder hohen Interpolationsfaktoren (z. B. 32-fache Erhöhung der Bildrate) führen stochastische Inkonsistenzen zwischen Segmenten zu Sprüngen in Erscheinung und Bewegung.

Das Ziel ist es, ein Framework zu schaffen, das die Generierung von Zwischenbildern zu beliebigen Zeitstempeln und in beliebiger Länge ermöglicht.

2. Methodik: ArbInterp

Das vorgestellte Framework ArbInterp baut auf dem Open-Source-Video-Generationsmodell Wan (basierend auf Diffusion Transformers, DiT) auf und führt zwei wesentliche Innovationen ein:

A. Timestamp-aware Rotary Position Embedding (TaRoPE)

Um die Starrheit fester Indizes zu überwinden, wird die zeitliche Positionierung der Frames neu definiert:

Kontinuierliche Zeitstempel: Anstatt Frames durch ihre absolute Indexposition ( $k$ ) zu identifizieren, werden sie durch einen normalisierten Zeitstempel $t \in [0, 1]$ codiert. Der Startframe hat $t=0$ , der Endframe $t=1$ .
Mechanismus: TaRoPE passt die Rotationspositionseingebettung (RoPE) so an, dass sie auf diese kontinuierlichen Zeitstempel reagiert. Dies ermöglicht dem Modell, die relative Position eines Frames im Bewegungsfeld unabhängig von der Gesamtzahl der Frames zu verstehen.
Vorteil: Das Modell lernt, ein kontinuierliches Bewegungsfeld zu modellieren, anstatt nur diskrete Schritte zwischen festen Indizes vorherzusagen. Dies erlaubt die Generierung von Frames zu beliebigen Zeitpunkten (z. B. $t=0.37$ ).

B. Appearance-Motion Decoupled Conditioning (Entkopplung von Erscheinung und Bewegung)

Für lange Interpolationen, die in Segmente aufgeteilt werden müssen, entsteht das Problem von Inkonsistenzen an den Schnittstellen. ArbInterp löst dies durch eine spezielle Bedingungstrategie:

Erscheinungskonsistenz (Appearance): Das letzte Bild des vorherigen Segments wird als „Prefix Frame" (Vorbild) direkt in den Eingabe-Latenzraum eingefügt. Dies sichert den visuellen Übergang.
Bewegungskohärenz (Motion): Anstatt das gesamte vorherige Segment zu verarbeiten, werden Motion Tokens extrahiert. Ein spezieller „Motion Semantic Extractor" (MSE), der auf einem zeitlich erweiterten CLIP-Modell und einem Q-Former basiert, komprimiert die Bewegungsinformation der letzten $N$ Frames in eine feste Anzahl von Tokens.
Integration: Diese Motion Tokens werden über Cross-Attention in den DiT-Prozess eingespeist, um die Dynamik des nächsten Segments zu steuern, ohne die Rechenlast durch das Laden ganzer Latenz-Vektoren zu erhöhen.

C. Inferenz-Strategien

Das Framework unterstützt verschiedene Strategien für unterschiedliche Längen:

Direkte Interpolation: Für kurze Sequenzen (ein einziger Vorwärtspass).
Segmentweise Interpolation: Aufteilung in nicht-überlappende Segmente für längere Videos.
Hierarchische Interpolation: Zuerst werden grobe Anker-Frames generiert, dann werden die Lücken dazwischen gefüllt. Dies verbessert die globale Bewegungstrajektorie.

3. Wichtige Beiträge

Neues Paradigma: ArbInterp ist das erste generative VFI-Framework, das die Generierung von Frames zu beliebigen kontinuierlichen Zeitstempeln ermöglicht, anstatt sich auf feste Interpolationsraten zu beschränken.
TaRoPE: Die Einführung von timestamp-sensitiven RoPEs ermöglicht eine feinkörnige Kontrolle über die zeitliche Positionierung ohne zusätzliche Parameter.
Effiziente Langzeit-Interpolation: Die Entkopplungsstrategie (Appearance-Motion Decoupling) löst das Problem der Segmentinkonsistenz effizient und verbessert die räumlich-zeitliche Kohärenz bei langen Videos.
MultiInterpBench: Die Autoren haben einen umfassenden Benchmark für Multi-Scale-Interpolation (2x bis 32x) erstellt, um die Generalisierungsfähigkeit zu testen.

4. Ergebnisse

Die Evaluation wurde auf dem neuen MultiInterpBench durchgeführt, der Interpolationsraten von 2x, 8x, 16x und 32x abdeckt.

Quantitative Leistung: ArbInterp übertrifft den State-of-the-Art (SOTA) Methoden wie LDMVFI, TRF, GI und DynamiCrafter in allen Metriken (FID, FVD, LPIPS, VBench-Metriken).
- Beispiel (32x Interpolation): ArbInterp erreicht einen FID von 26.5 (vs. 52.6 bei LDMVFI) und eine VBench-Overall-Score von 0.8324 (vs. 0.8076).
- Besonders hervorzuheben ist die Verbesserung bei der Bewegungsglättung (Motion Smoothness) und der Reduktion von zeitlichem Flackern (Temporal Flicker).
Qualitative Leistung: Visuelle Vergleiche zeigen, dass ArbInterp glattere Übergänge und konsistentere Bewegungen erzeugt, selbst bei extremen Interpolationsfaktoren.
Effizienz: Die Entkopplungsstrategie reduziert die Rechenkosten im Vergleich zur direkten Latenz-Konkatenation um ca. 40%, während sie gleichzeitig die Qualität verbessert.
Training: Das Modell wurde mit nur 20.000 Schritten auf 8 GPUs (96GB) feinabgestimmt, was die Effizienz des Ansatzes unterstreicht.

5. Bedeutung und Ausblick

Flexibilität für die Praxis: ArbInterp ermöglicht es Video-Künstlern und Entwicklern, die Bildrate und Dauer von Videos dynamisch anzupassen, was für Anwendungen wie Gaming (Streaming-Interpolation), Slow-Motion-Effekte und Videobearbeitung entscheidend ist.
Skalierbarkeit: Der Ansatz demonstriert, dass generative Modelle durch die Anpassung der Positionseingebettung (RoPE) theoretisch unendlich lange Interpolationen bewältigen können.
Zukünftige Arbeiten: Die Autoren planen, Text-Steuerung zu integrieren und die Modelle sowie Datensätze zu skalieren, um die Kontrolle über komplexe Szenarien weiter zu verbessern.

Zusammenfassend stellt ArbInterp einen bedeutenden Fortschritt im Bereich der generativen Videoverarbeitung dar, indem es die starren Grenzen der bisherigen Interpolationsmethoden durchbricht und eine nahtlose, zeitlich präzise Kontrolle über generierte Videosequenzen ermöglicht.