Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Das Paper stellt Kaleido vor, ein Open-Source-Framework zur Generierung von konsistenten Videos aus mehreren Referenzbildern, das durch eine spezialisierte Datenkonstruktionspipeline und eine neue Referenz-Rotary-Positional-Encoding-Methode (R-RoPE) die bestehenden Grenzen bei der Mehrsubjekt-Konsistenz und Hintergrundentflechtung überwindet.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film drehen, aber du hast keine Schauspieler, keine Kulissen und kein Budget. Stattdessen hast du nur ein paar Fotos von deinen Freunden, deinem Lieblingshund und ein paar Ideen, was sie tun sollen. Früher war es für Computer extrem schwierig, aus diesen statischen Fotos einen lebendigen, konsistenten Film zu machen, ohne dass die Gesichter sich verformen oder der Hintergrund chaotisch wird.

Das Paper stellt Kaleido vor – ein neues, kostenloses (Open-Source) Werkzeug, das genau dieses Problem löst. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "verwirrte Koch"

Stell dir vor, ein KI-Modell ist wie ein Koch, der versucht, ein Gericht nach einem Rezept (dem Text) und einem Foto eines Zutaten (dem Referenzbild) zu kochen.

  • Das alte Problem: Wenn der Koch ein Foto von einem Hund auf einem Sofa sieht, denkt er oft: "Ah, der Hund ist das Sofa." Wenn er dann einen Film macht, bleibt der Hund oft starr auf dem Sofa sitzen oder der Hintergrund (das Sofa) klebt am Hund fest, wie Kaugummi.
  • Bei mehreren Personen: Wenn du zwei Fotos von zwei verschiedenen Personen zeigst, verwechseln die alten Modelle sie oft. Der Hund bekommt plötzlich das Gesicht der Frau, oder beide Figuren verschmelzen zu einem Monster. Das nennt man "Semantischen Drift" – die Identität der Figuren geht verloren.

2. Die Lösung: Kaleido (Der "Meister-Koch")

Kaleido ist wie ein neuer, genialer Koch, der zwei spezielle Tricks gelernt hat, um perfekte Filme zu kochen.

Trick Nr. 1: Die "Super-Rezeptur" (Daten-Pipeline)

Bevor der Koch überhaupt kocht, muss er die Zutaten vorbereiten. Früher haben die KIs nur zufällige Videos aus dem Internet gelernt. Das war wie Kochen mit verdorbenen Zutaten.

  • Was Kaleido tut: Das Team hat eine riesige "Zubereitungsfabrik" gebaut. Sie nehmen Videos, schneiden sie in kleine Teile und nutzen KI, um die Figuren (den "Helden") perfekt vom Hintergrund (dem "Sofa") zu trennen.
  • Der Clou: Sie mischen die Zutaten neu! Sie nehmen das Foto von Person A und setzen sie in einen völlig neuen Hintergrund (z. B. auf den Mond oder in eine Küche). Sie nennen das "Cross-Paired Data".
  • Der Effekt: Der Koch lernt: "Aha! Die Person ist wichtig, aber der Hintergrund ist nur Deko und kann sich ändern!" So lernt das Modell, den Charakter zu lieben, ohne an den Hintergrund zu kleben.

Trick Nr. 2: Der "Sitzplan" (R-RoPE)

Stell dir vor, du hast einen langen Tisch (den Computer-Speicher), an dem die Bilder und der Film sitzen.

  • Das alte Problem: Wenn du ein Foto und einen Film hintereinander auf den Tisch legst, denkt der Computer manchmal: "Oh, das Foto ist nur der erste Frame des Films!" Das führt zu Verwirrung.
  • Was Kaleido tut: Sie erfinden einen neuen Sitzplan namens R-RoPE. Sie geben den Fotos eine ganz spezielle "Adresse" auf dem Tisch, die sich von der Adresse der Film-Frames unterscheidet.
  • Die Analogie: Stell dir vor, die Film-Frames sitzen in der ersten Reihe des Kinos. Die Referenzfotos bekommen aber VIP-Sitze in einer separaten, erhöhten Loge. Der Computer weiß sofort: "Okay, die Loge ist für die Vorlage (wer soll aussehen?), die erste Reihe ist für die Aktion (was soll passieren?)."
  • Das Ergebnis: Selbst wenn du drei verschiedene Fotos von drei verschiedenen Personen zeigst, weiß der Computer genau, wer wer ist. Niemand verwechselt sich.

3. Das Ergebnis: Warum ist das cool?

Kaleido ist derzeit eines der besten kostenlosen Modelle der Welt für diese Aufgabe.

  • Treue: Wenn du ein Foto von dir zeigst, sieht der Film-Charakter wirklich wie du aus (selbst wenn du lächelst oder dich bewegst).
  • Trennung: Der Hintergrund ist sauber. Wenn du sagst "Lauf durch den Wald", läuft dein Charakter durch den Wald, ohne dass plötzlich Bäume aus deinem Foto in den Wald hineinwachsen.
  • Mehrere Figuren: Du kannst zwei Freunde in einen Film bringen, und sie interagieren, ohne dass ihre Gesichter ineinander übergehen.

Zusammenfassung

Kaleido ist wie ein magischer Regisseur, der gelernt hat, aus ein paar statischen Fotos lebendige Filme zu drehen. Er hat gelernt, die "Hauptdarsteller" (die Personen/Objekte) von ihren "Kulis" (dem Hintergrund) zu trennen und weiß genau, wo jeder im Raum steht, auch wenn mehrere Personen gleichzeitig im Bild sind. Und das Beste: Dieser Regisseur ist jetzt für alle verfügbar, nicht nur für große Firmen.

Es ist ein großer Schritt, damit jeder mit ein paar Fotos und einer Idee einen professionell aussehenden Videoclip erstellen kann, ohne dass die KI verrückt spielt.