Arbitrary Generative Video Interpolation

Die Arbeit stellt ArbInterp vor, ein neuartiges generatives Framework zur Video-Framinterpolation, das dank einer timestamp-bewussten Rotationspositionseingebettung (TaRoPE) und einer segmentweisen Zerlegung mit entkoppelter Konditionierung die flexible Synthese von Zwischenbildern zu beliebigen Zeitpunkten und in beliebigen Längen ermöglicht und dabei die bisherigen Methoden in Bezug auf Bildqualität und räumlich-zeitliche Kohärenz übertrifft.

Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎬 Das Problem: Der starre Film-Editor

Stell dir vor, du hast zwei Fotos: eines von einem springenden Hund am Anfang und eines davon, wie er landet. Du möchtest einen Film dazwischen machen, der zeigt, wie der Hund springt.

Bisherige KI-Modelle waren wie starre Automaten. Wenn du sagtest: „Mach mir 4 Bilder dazwischen", dann machten sie genau 4. Wenn du sagst: „Mach mir 100 Bilder", dann machten sie 100. Aber sie konnten nicht flexibel sein.

  • Du wolltest den Hund genau in der Mitte des Sprungs sehen? Der alte Automat sagte: „Nein, ich kann nur bei 25%, 50% oder 75% stoppen."
  • Du wolltest den Sprung extrem langsam (wie in einer Tränen-Drama-Szene) oder extrem schnell (wie in einem Actionfilm) zeigen? Das ging nicht einfach so.

Die alten Methoden waren wie ein Festgeklebter Filmstreifen: Die Abstände zwischen den Bildern waren immer gleich. Man konnte nichts ändern, ohne den ganzen Streifen neu zu schneiden.

🚀 Die Lösung: ArbInterp – Der „Magische Zeit-Regler"

Die Forscher haben eine neue Methode namens ArbInterp entwickelt. Stell dir das wie einen intelligenten Filmregisseur vor, der nicht auf starre Anweisungen hört, sondern auf deine Gedanken.

Mit ArbInterp kannst du sagen: „Zeig mir den Hund genau in diesem Moment, wenn er die höchste Punkt erreicht" oder „Zeig mir den Moment, 0,03 Sekunden nachdem er den Boden berührt hat."

Das Besondere: Du kannst jeden beliebigen Zeitpunkt und beliebig viele Bilder dazwischen generieren. Es ist, als hättest du einen Film, der sich in Zeitlupe, Echtzeit oder Zeitraffer verwandeln lässt, ohne dass die Qualität leidet.

🔑 Wie funktioniert das? (Die zwei genialen Tricks)

Um das zu erreichen, nutzen die Forscher zwei clevere Tricks, die wie Werkzeuge in einer Werkstatt wirken:

1. Der „Zeit-Kompass" (TaRoPE)

In normalen KI-Modellen wissen die Bilder nicht, wann sie passieren. Sie wissen nur: „Ich bin Bild Nr. 1, ich bin Bild Nr. 2". Das ist wie ein Zug, bei dem die Waggons nur Nummern haben, aber keine Uhrzeit.

ArbInterp gibt jedem Bild einen Zeitstempel (eine Uhrzeit), genau wie bei einem Zug, der an einem Bahnhof ankommt.

  • Das Startbild hat die Uhrzeit 0:00.
  • Das Endbild hat die Uhrzeit 1:00.
  • Das KI-Modell lernt nun: „Ah, ich soll ein Bild für 0:42 erstellen."

Dafür haben sie eine neue Art von „Kompass" (genannt TaRoPE) eingebaut. Dieser Kompass sagt dem Modell nicht nur „du bist der 5. Waggon", sondern „du bist genau 42% der Reise". Dadurch kann das Modell den Sprung des Hundes an jedem Punkt der Zeit perfekt berechnen, egal ob du 2 Bilder oder 1000 Bilder dazwischen willst.

2. Der „Nahtlose Übergang" (Trennung von Aussehen und Bewegung)

Wenn man einen sehr langen Film in viele kleine Abschnitte schneidet und die KI jeden Abschnitt einzeln macht, passiert oft ein Problem: Der Hund sieht im ersten Abschnitt rot aus und im zweiten plötzlich blau, oder er hüpft ruckartig.

Stell dir vor, du schreibst eine Geschichte mit mehreren Autoren. Jeder schreibt ein Kapitel. Ohne Absprache würde der Held im ersten Kapitel einen Bart haben und im zweiten glatt sein.

ArbInterp löst das, indem es Aussehen und Bewegung trennt:

  • Aussehen (Der Look): Die KI schaut sich das letzte Bild des vorherigen Abschnitts an und sagt: „Okay, der Hund muss hier genau so aussehen wie im letzten Bild." (Das ist wie ein Fotograf, der sicherstellt, dass die Kleidung gleich bleibt).
  • Bewegung (Die Action): Die KI extrahiert die „Bewegungs-Energie" (wie schnell und wohin der Hund fliegt) und gibt diese Information als unsichtbaren Befehl an den nächsten Abschnitt weiter.

Dadurch fühlt sich der Film an, als wäre er in einem einzigen, langen Atemzug entstanden, obwohl er in kleinen Stücken berechnet wurde.

🏆 Das Ergebnis: Besser, schneller, flexibler

Die Forscher haben ihre Methode an einem riesigen Benchmark getestet (einem großen Test mit verschiedenen Szenarien).

  • Ergebnis: ArbInterp ist nicht nur flexibler (du kannst den Zeitplan frei wählen), sondern macht auch schönere und flüssigere Filme als alle bisherigen Methoden.
  • Vergleich: Während alte Methoden bei vielen Zwischenbildern oft unscharf wurden oder den Hund verzerrten, bleibt ArbInterp stabil und realistisch, selbst wenn man den Sprung in 32-facher Geschwindigkeit (oder 32-facher Zeitlupe) betrachtet.

🌟 Zusammenfassung für den Alltag

Stell dir vor, du hast einen Video-Editor, der nicht mehr fragt: „Wie viele Bilder willst du dazwischen?", sondern fragt: „An welcher Stelle der Zeit soll ich das Bild zeigen?"

Mit ArbInterp kannst du den Film deiner Träume gestalten:

  • Willst du eine Action-Szene in Zeitlupe? Kein Problem.
  • Willst du einen langweiligen Moment überspringen? Kein Problem.
  • Willst du den perfekten Moment genau in der Mitte eines Sprungs einfangen? Die KI findet ihn genau dort.

Es ist der Unterschied zwischen einem starren Automaten und einem kreativen Künstler, der genau weiß, was du dir vorstellst, egal wie du es beschreibst.