InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman is een nieuw kader dat end-to-end menselijke animatie mogelijk maakt met meerdere concepten door modale voorwaarden zoals tekst, afbeeldingen en lokaal geluid nauwkeurig te koppelen aan specifieke ruimtelijke gebieden, waardoor realistische interacties tussen meerdere personen en objecten worden gegenereerd.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Yuan Zhang, Mingyuan Gao, Dahua Lin

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film draait met meerdere acteurs. In de oude wereld van AI-video's was dit een nachtmerrie. Als je een video wilde maken waarin twee mensen praten, deed de computer vaak alsof ze één groot, verward wezen waren. De stem van de ene persoon kwam uit de mond van de andere, of hun kleding en gezichten werden door elkaar gehusseld. Het was alsof je probeerde twee verschillende radiozenders tegelijk op één luidspreker te zetten; het werd gewoon ruis.

Deze paper introduceert InterActHuman, een slimme nieuwe regisseur die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Globale" Regisseur

Tot nu toe keken AI-modellen naar een video als naar één grote soep. Als je een foto van een man en een vrouw gaf, en een geluidsbestand met twee stemmen, dacht de computer: "Oké, ik moet alles mengen." Het resultaat? De man praatte met de stem van de vrouw, of ze veranderden allebei van gezicht. De computer wist niet wie wie was.

2. De Oplossing: De "Magische Zonnebril"

InterActHuman doet iets heel anders. Het draagt een soort magische zonnebril (in de tech-taal een 'mask predictor').

  • Hoe het werkt: Zodra de video begint te ontstaan, kijkt de AI niet alleen naar de beelden, maar probeert ze direct te raden: "Waar staat de man precies? Waar staat de vrouw?"
  • De Analogie: Stel je voor dat je een schilderij maakt van twee mensen die praten. In plaats van dat je de verf door elkaar mengt, plak je een transparant stukje plastic over de man en een ander stukje over de vrouw.
  • De Magie: De AI maakt deze "plaatjes" (masks) niet van tevoren, maar ze groeien mee met de video. In het begin is het vaag, maar naarmate de video duidelijker wordt, worden de randen scherper.

3. De Geluidsgids: "Wie spreekt waar?"

Dit is het meest ingenieuze deel. Normaal gesproken wordt geluid over de hele video verspreid. InterActHuman gebruikt die "magische plaatjes" om het geluid precies op de juiste plek te spuiten.

  • De Analogie: Stel je voor dat je twee luidsprekers hebt. De ene staat bij de man, de andere bij de vrouw.
  • Het proces: Als de man in de video zijn mond opent, stuurt de AI het geluid van de man alleen naar het stukje plastic dat over de man ligt. Het geluid van de vrouw gaat alleen naar haar stukje.
  • Het resultaat: De man praat met zijn eigen stem, de vrouw met de hare, en ze kijken elkaar aan alsof ze echt een gesprek voeren. Geen verwarring meer!

4. De "Kip en Ei" Probleem Opgelost

Er was een groot probleem: Hoe maak je een masker als je nog niet weet hoe de video eruitziet? En hoe maak je de video als je geen masker hebt? Het is als een kip-ei-probleem.

  • De Oplossing: De AI doet het stap voor stap, net als het oplossen van een raadsel. Eerst is het beeld wazig en het masker vaag. Maar de AI gebruikt het masker van vorige seconde om de huidige seconde beter te maken. Het is alsof je een beeld langzaam uit een mist opbouwt; hoe dichter je bij het einde komt, hoe scherper de contouren worden.

5. Wat kun je er nu mee doen?

Met InterActHuman kun je nu:

  • Video's maken waarin twee of drie mensen met elkaar praten, elk met hun eigen stem en gezicht.
  • Video's maken van mensen die met objecten interageren (bijvoorbeeld iemand die een bal gooit), waarbij het geluid van de bal en de persoon perfect gesynchroniseerd is.
  • Je kunt zelfs video's maken zonder dat je een startfoto hebt; de AI bouwt het hele tafereel op basis van je beschrijving en geluid.

Samenvattend

InterActHuman is als een slimme regisseur die weet precies wie wie is in een drukke scène. Het gebruikt een slimme "zonnebril" om te zien wie waar staat, en gebruikt die informatie om het geluid en de beelden perfect op hun plek te houden. Hierdoor krijgen we voor het eerst realistische video's van mensen die echt met elkaar praten, zonder dat de computer in de war raakt.