MultiAnimate: Pose-Guided Image Animation Made Extensible

Das Paper stellt MultiAnimate vor, ein auf Diffusion Transformern basierendes, erweiterbares Framework für die Pose-gesteuerte Animation mehrerer Charaktere, das durch innovative Komponenten wie den Identifier Assigner und Adapter Identitätsverwirrungen vermeidet und selbst bei Training mit nur zwei Charakteren auf Szenarien mit beliebig vielen Figuren generalisiert.

Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

MultiAnimate: Der Regisseur für digitale Tanzpartys

Stell dir vor, du möchtest einen Film drehen, in dem nicht nur eine Person tanzt, sondern eine ganze Gruppe – vielleicht ein Paar, das Walzer tanzt, oder sogar eine ganze Band, die auf einer Bühne performt. Das Problem: Die meisten aktuellen KI-Tools sind wie ein sehr guter Solist, aber sobald zwei oder mehr Personen auf der Bühne sind, wird es chaotisch. Die Gesichter vermischen sich, die Personen tauschen plötzlich ihre Identitäten, oder sie laufen durch einander hindurch, wie Geister.

Die Forscher hinter MultiAnimate haben eine Lösung entwickelt, die dieses Chaos beendet. Hier ist die Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Die "Identitäts-Amnesie"

Stell dir vor, du hast zwei Tänzer, Anna und Ben. Sie drehen sich beide um 180 Grad und tauschen ihre Plätze.

  • Die alte KI: Sie sieht nur die Bewegungen. "Wer ist jetzt links? Wer ist rechts?" Da beide sich gleich bewegen, verliert die KI den Faden. Plötzlich tanzt Anna mit Bens Gesicht und umgekehrt. Das nennt man "Identitätsverwirrung".
  • Die neue KI (MultiAnimate): Sie gibt jedem Tänzer einen unsichtbaren, aber unverwechselbaren Namensschild (einen "Identifier").

2. Die Lösung: Das Namensschild-System

Das Herzstück der neuen Methode sind zwei clevere Bausteine, die wie ein Regie-Team arbeiten:

  • Der "Namensschild-Verteiler" (Identifier Assigner):
    Stell dir vor, du hast einen Stapel leere Namensschilder. Bevor der Tanz beginnt, ordnet dieser Verteiler jedem Menschen im Bild ein einzigartiges Schild zu. Anna bekommt das Schild "A", Ben das Schild "B". Wichtig ist: Diese Schilder sind nicht fest an eine Position gebunden. Wenn Anna nach links läuft, nimmt sie ihr Schild "A" mit. Die KI weiß also genau: "Das hier ist Anna, egal wo sie steht."

  • Der "Namensschild-Übersetzer" (Identifier Adapter):
    Die KI-Modelle verstehen keine Namen wie "Anna" oder "Ben". Der Übersetzer wandelt diese Namensschilder in eine Sprache um, die die KI versteht: eine Art "Raum-Code". Er sagt der KI nicht nur, wer da ist, sondern auch, wie die Personen zueinander stehen. "Anna steht vor Ben", "Ben verdeckt teilweise Annas Arm". So entstehen realistische Überlappungen, statt dass die Personen durch einander hindurchschweben.

3. Der geniale Trick: Das "Schulbuch-Prinzip"

Das Coolste an MultiAnimate ist seine Fähigkeit, Dinge zu lernen, die es nie gesehen hat.

Normalerweise muss man eine KI für zwei Personen mit Daten von zwei Personen trainieren. Will man dann drei Personen animieren, muss man von vorne anfangen und riesige Mengen an Daten für drei Personen sammeln. Das ist teuer und mühsam.

MultiAnimate macht es anders:
Stell dir vor, die KI lernt in einer Schule, in der es nur zwei Schüler (Anna und Ben) gibt. Aber der Lehrer (das Trainingssystem) sagt: "Wir haben hier 100 verschiedene Namensschilder in der Schublade. Heute bekommt Anna Schild Nr. 5 und Ben Schild Nr. 12. Morgen bekommt Anna Schild Nr. 99 und Ben Schild Nr. 3."

Da die KI lernt, dass die Nummer des Schildes keine feste Position bedeutet, sondern einfach nur "diese Person" anzeigt, lernt sie das Prinzip des "Namensschildes" perfekt.

Das Ergebnis: Wenn man der KI später sagt: "Hey, hier sind drei Personen!", kann sie einfach drei neue Schilder aus der Schublade ziehen (z. B. Nr. 5, 12 und 77). Da sie gelernt hat, dass die Nummern austauschbar sind, versteht sie sofort, dass es jetzt drei verschiedene Personen sind, ohne dass sie jemals ein Video mit drei Personen gesehen hat!

4. Warum ist das so toll?

  • Kein Chaos mehr: Die Gesichter bleiben stabil. Anna bleibt Anna, auch wenn sie hinter Ben durchläuft.
  • Skalierbar: Man kann das System theoretisch auf 7, 10 oder sogar 100 Personen erweitern, ohne das Modell neu zu trainieren. Man braucht nur mehr "Namensschilder" aus der Schublade.
  • Ein Tool für alle: Es funktioniert super für eine einzelne Person (wie ein Solotanz) und genauso gut für eine ganze Gruppe.

Zusammenfassend:
MultiAnimate ist wie ein genialer Regisseur, der jedem Schauspieler eine unverwechselbare ID gibt und dem Kameramann (der KI) genau sagt, wer wo steht. Dadurch können wir realistische Videos von ganzen Gruppen erstellen, die so aussehen, als wären sie mit echten Kameras gefilmt – und das alles, indem die KI nur gelernt hat, wie Paare tanzen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →