Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film drehen, aber du hast keine Schauspieler, keine Kulissen und kein Budget. Stattdessen hast du nur ein paar Fotos von deinen Freunden, deinem Lieblingshund und ein paar Ideen, was sie tun sollen. Früher war es für Computer extrem schwierig, aus diesen statischen Fotos einen lebendigen, konsistenten Film zu machen, ohne dass die Gesichter sich verformen oder der Hintergrund chaotisch wird.

Das Paper stellt Kaleido vor – ein neues, kostenloses (Open-Source) Werkzeug, das genau dieses Problem löst. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "verwirrte Koch"

Stell dir vor, ein KI-Modell ist wie ein Koch, der versucht, ein Gericht nach einem Rezept (dem Text) und einem Foto eines Zutaten (dem Referenzbild) zu kochen.

Das alte Problem: Wenn der Koch ein Foto von einem Hund auf einem Sofa sieht, denkt er oft: "Ah, der Hund ist das Sofa." Wenn er dann einen Film macht, bleibt der Hund oft starr auf dem Sofa sitzen oder der Hintergrund (das Sofa) klebt am Hund fest, wie Kaugummi.
Bei mehreren Personen: Wenn du zwei Fotos von zwei verschiedenen Personen zeigst, verwechseln die alten Modelle sie oft. Der Hund bekommt plötzlich das Gesicht der Frau, oder beide Figuren verschmelzen zu einem Monster. Das nennt man "Semantischen Drift" – die Identität der Figuren geht verloren.

2. Die Lösung: Kaleido (Der "Meister-Koch")

Kaleido ist wie ein neuer, genialer Koch, der zwei spezielle Tricks gelernt hat, um perfekte Filme zu kochen.

Trick Nr. 1: Die "Super-Rezeptur" (Daten-Pipeline)

Bevor der Koch überhaupt kocht, muss er die Zutaten vorbereiten. Früher haben die KIs nur zufällige Videos aus dem Internet gelernt. Das war wie Kochen mit verdorbenen Zutaten.

Was Kaleido tut: Das Team hat eine riesige "Zubereitungsfabrik" gebaut. Sie nehmen Videos, schneiden sie in kleine Teile und nutzen KI, um die Figuren (den "Helden") perfekt vom Hintergrund (dem "Sofa") zu trennen.
Der Clou: Sie mischen die Zutaten neu! Sie nehmen das Foto von Person A und setzen sie in einen völlig neuen Hintergrund (z. B. auf den Mond oder in eine Küche). Sie nennen das "Cross-Paired Data".
Der Effekt: Der Koch lernt: "Aha! Die Person ist wichtig, aber der Hintergrund ist nur Deko und kann sich ändern!" So lernt das Modell, den Charakter zu lieben, ohne an den Hintergrund zu kleben.

Trick Nr. 2: Der "Sitzplan" (R-RoPE)

Stell dir vor, du hast einen langen Tisch (den Computer-Speicher), an dem die Bilder und der Film sitzen.

Das alte Problem: Wenn du ein Foto und einen Film hintereinander auf den Tisch legst, denkt der Computer manchmal: "Oh, das Foto ist nur der erste Frame des Films!" Das führt zu Verwirrung.
Was Kaleido tut: Sie erfinden einen neuen Sitzplan namens R-RoPE. Sie geben den Fotos eine ganz spezielle "Adresse" auf dem Tisch, die sich von der Adresse der Film-Frames unterscheidet.
Die Analogie: Stell dir vor, die Film-Frames sitzen in der ersten Reihe des Kinos. Die Referenzfotos bekommen aber VIP-Sitze in einer separaten, erhöhten Loge. Der Computer weiß sofort: "Okay, die Loge ist für die Vorlage (wer soll aussehen?), die erste Reihe ist für die Aktion (was soll passieren?)."
Das Ergebnis: Selbst wenn du drei verschiedene Fotos von drei verschiedenen Personen zeigst, weiß der Computer genau, wer wer ist. Niemand verwechselt sich.

3. Das Ergebnis: Warum ist das cool?

Kaleido ist derzeit eines der besten kostenlosen Modelle der Welt für diese Aufgabe.

Treue: Wenn du ein Foto von dir zeigst, sieht der Film-Charakter wirklich wie du aus (selbst wenn du lächelst oder dich bewegst).
Trennung: Der Hintergrund ist sauber. Wenn du sagst "Lauf durch den Wald", läuft dein Charakter durch den Wald, ohne dass plötzlich Bäume aus deinem Foto in den Wald hineinwachsen.
Mehrere Figuren: Du kannst zwei Freunde in einen Film bringen, und sie interagieren, ohne dass ihre Gesichter ineinander übergehen.

Zusammenfassung

Kaleido ist wie ein magischer Regisseur, der gelernt hat, aus ein paar statischen Fotos lebendige Filme zu drehen. Er hat gelernt, die "Hauptdarsteller" (die Personen/Objekte) von ihren "Kulis" (dem Hintergrund) zu trennen und weiß genau, wo jeder im Raum steht, auch wenn mehrere Personen gleichzeitig im Bild sind. Und das Beste: Dieser Regisseur ist jetzt für alle verfügbar, nicht nur für große Firmen.

Es ist ein großer Schritt, damit jeder mit ein paar Fotos und einer Idee einen professionell aussehenden Videoclip erstellen kann, ohne dass die KI verrückt spielt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderungen im Bereich der Subject-to-Video (S2V) Generierung, also der Erzeugung von Videos, die auf mehreren Referenzbildern eines oder mehrerer Zielsubjekte basieren. Trotz Fortschritten bei geschlossenen Modellen (wie Kling oder Vidu) leiden bestehende Open-Source-Ansätze unter zwei Hauptproblemen:

Mangelnde Konsistenz und Entkopplung: Bestehende Modelle haben Schwierigkeiten, die visuelle Konsistenz über mehrere Subjekte hinweg aufrechtzuerhalten und den Hintergrund effektiv von den Subjekten zu entkoppeln. Oft werden unnötige Hintergrunddetails oder irrelevante Objekte aus den Referenzbildern in das generierte Video übernommen.
Datenmängel: Trainingsdatensätze sind oft nicht divers genug oder enthalten „verflochtene" Paare, bei denen Subjekt und Hintergrund nicht getrennt sind. Zudem fehlt es an „Cross-Paired"-Daten (Paare, bei denen Komponenten aus verschiedenen Instanzen stammen), was die Generalisierungsfähigkeit einschränkt.
Ineffiziente Konditionierung: Aktuelle Methoden zur Integration mehrerer Referenzbilder (z. B. einfache Verkettung von Features) führen oft zu räumlichen Überlappungen, Token-Verwirrung und einer Verschlechterung der zeitlichen Kohärenz.

2. Methodik

Kaleido löst diese Probleme durch eine Kombination aus einer neuartigen Datenkonstruktionspipeline und einem verbesserten Architektur-Design innerhalb eines Diffusion-Transformer-Frameworks (basierend auf Wan2.1).

A. Datenkonstruktionspipeline (Dataset Construction Pipeline)

Um hochwertige und entkoppelte Trainingsdaten zu erzeugen, wurde ein mehrstufiger Prozess entwickelt:

Vorverarbeitung & Captioning: Videos werden in kurze Clips zerlegt und automatisch beschrieben.
Grounding & Segmentierung: Mithilfe von Grounding DINO und SAM (Segment Anything) werden Subjekte präzise lokalisiert und segmentiert.
Filterung: Strenge Filter (Größe, Überlappung, Qualität, Gesichtserkennung) sichern die Datenqualität.
Hintergrund-Entkopplung (Inpainting): Referenzbilder werden so bearbeitet, dass der Hintergrund entfernt und durch Inpainting neu generiert wird. Dies zwingt das Modell, sich auf das Subjekt zu konzentrieren und den Hintergrund basierend auf Textprompts neu zu erschaffen.
Cross-Paired Daten & Augmentation: Es werden „Cross-Paired"-Samples erstellt (Kombination von Subjekt A mit Hintergrund B) und Posen/Motionen durch Diffusion-Modelle (Flux Redux) variiert, um Overfitting zu vermeiden und die Generalisierung zu stärken.

B. Framework & R-RoPE

Das Kernstück der Architektur ist die effiziente Integration mehrerer Referenzbilder in den Diffusion-Transformer:

Einfache Verkettung: Anstatt komplexer Adapter-Module werden die kodierten Bild-Conditioning-Tokens einfach entlang der Sequenzdimension an die Video-Latents angehängt.
Reference Rotary Positional Encoding (R-RoPE): Um zu verhindern, dass das Modell Bild-Tokens fälschlicherweise als aufeinanderfolgende Videoframes interpretiert, wird eine modifizierte 3D-RoPE (Rotary Positional Encoding) eingeführt.
- Video-Tokens erhalten Positionen $(t, h, w)$ .
- Bild-Tokens erhalten verschobene räumliche Positionen, die bei $(H_{max}, W_{max})$ beginnen, sowie individuelle zeitliche Positionen.
- Dies gewährleistet eine klare Trennung im Embedding-Raum und verhindert Token-Verwirrung bei multiplen Subjekten.

3. Hauptbeiträge

Umfassende Datenpipeline: Eine skalierbare Pipeline, die durch Inpainting und Cross-Pairing hochwertige, hintergrundunabhängige Trainingsdaten erzeugt.
R-RoPE Mechanismus: Eine neue Positional-Encoding-Strategie, die eine stabile und präzise Integration mehrerer Referenzbilder ermöglicht, ohne die Rechenkomplexität signifikant zu erhöhen.
State-of-the-Art Open-Source-Modell: Kaleido setzt neue Maßstäbe für Open-Source-S2V-Modelle und erreicht Leistungsniveaus, die mit geschlossenen kommerziellen Modellen konkurrieren.

4. Ergebnisse

Die Evaluation erfolgte auf Benchmarks mit menschlichen, tierischen, cartoonhaften und objektbasierten Subjekten (einschließlich Multi-Subject-Szenarien).

Quantitative Ergebnisse:
- Kaleido erzielt die besten Werte in S2V Consistency (0,723) und S2V Decoupling (0,319), was eine überlegene Subjekterhaltung und Hintergrundtrennung belegt.
- In allgemeinen Metriken (Bewegungsglätte, ästhetische Qualität) liegt das Modell auf Augenhöhe mit Top-Modellen wie Kling und Vidu Q1.
- Bei der Gesichtserkennung (FaceSim) übertrifft Kaleido andere Open-Source-Modelle deutlich und liegt leicht über dem geschlossenen Modell Kling.
Qualitative Ergebnisse:
- Im Vergleich zu VACE (das oft Hintergrundartefakte übernimmt) und Phantom (das Token-Verwirrung zeigt), gelingt es Kaleido, Subjekte klar zu trennen und konsistente Videos zu erzeugen.
- Nutzerstudien bestätigen eine klare Präferenz für Kaleido in Bezug auf Videoqualität, Prompt-Alignment und Subjektkonsistenz.

5. Bedeutung

Kaleido stellt einen bedeutenden Fortschritt im Bereich der Open-Source-Video-KI dar. Es schließt die Lücke zwischen geschlossenen kommerziellen Systemen und Open-Source-Lösungen, indem es spezifische Probleme der Multi-Subject-Generierung und Hintergrund-Entkopplung adressiert. Durch die Veröffentlichung von Code, Modellen und der Datenpipeline ermöglicht das Projekt der Forschungsgemeinschaft, robuste und kontrollierbare Video-Generierungsmodelle weiterzuentwickeln, was Anwendungen im E-Commerce, der Werbung und im digitalen Storytelling vorantreibt.