WildActor: Unconstrained Identity-Preserving Video Generation

Dit paper introduceert WildActor, een framework voor het genereren van video's met menselijke acteurs die hun volledige lichaamidentiteit behouden onder onbeperkte bewegingen en camerahoeken, ondersteund door de nieuwe grote dataset Actor-18M.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film draait. Je hebt een acteur nodig die in elke scène precies hetzelfde persoon blijft, of je nu van de camera wisselt, de acteur laat rennen, of hem in een andere kamer plaatst. In de echte wereld is dit makkelijk: de acteur is fysiek aanwezig. Maar in de wereld van kunstmatige intelligentie (AI) die video's maakt, is dit een enorme uitdaging. Vaak verandert het gezicht van de acteur, of blijft hij als een poppetje stilstaan terwijl hij zou moeten bewegen.

Het artikel "WILDACTOR" introduceert een nieuwe manier om dit op te lossen. Hier is een eenvoudige uitleg, met wat creatieve vergelijkingen:

1. Het Probleem: De "Drijvende Hoofd"- en "Prikpop"-effecten

Huidige AI-tools hebben twee grote problemen:

  • Het "Drijvende Hoofd" (Face-centric): De AI kijkt alleen naar het gezicht. Het is alsof je een poppetje hebt waarbij alleen het hoofd goed is, maar het lichaam eruitziet als een wazige droom of een andere persoon.
  • De "Prikpop" (Pose-locking): De AI plakt de foto van de acteur op de video en laat hem niet bewegen. Het is alsof je een foto op een muur plakt en probeert die foto te laten dansen; hij blijft stijf en doet precies wat op de foto staat, zelfs als je vraagt dat hij rent.

2. De Oplossing: Een Nieuwe "Acteurschool" (Actor-18M)

Om een goede acteur te trainen, heb je veel verschillende foto's nodig: van voren, van opzij, van achteren, in de zon, in de regen, en in verschillende houdingen.

  • De oude manier: De AI leerde van films waar de acteur bijna altijd naar de camera keek. Dat is alsof je iemand leert zwemmen door alleen naar foto's van mensen te kijken die op het strand liggen. Ze weten niet hoe ze zich moeten gedragen als ze in het water springen.
  • De nieuwe manier (Actor-18M): De onderzoekers hebben een gigantische database gemaakt met 1,6 miljoen video's en 18 miljoen foto's. Ze hebben deze data "opgepoetst" met AI-tools om foto's te maken van dezelfde persoon vanuit elk denkbaar hoekje.
    • Analogie: Het is alsof ze een acteur hebben gevraagd om urenlang in een draaiende kamer te staan terwijl honderden camera's hem van elke kant filmen. Zo leert de AI: "Dit is die persoon, ongeacht of ik hem van voren, van achteren of van boven zie."

3. De Magische Techniek: WILDACTOR

Met deze nieuwe database hebben ze een nieuw systeem gebouwd dat heet WILDACTOR. Dit systeem werkt met twee slimme trucjes:

Truc 1: De "Onzichtbare Ketting" (Asymmetric Attention)

Stel je voor dat de AI een gesprek voert.

  • De oude manier: De AI liet de "foto" (de identiteit) en de "beweging" (de video) door elkaar praten. Hierdoor verwarden ze elkaar. De foto probeerde de beweging te sturen, waardoor de acteur stijf bleef.
  • De nieuwe manier (WILDACTOR): Ze maken een eenrichtingsverkeer.
    • De "beweging" (de video) mag kijken naar de "foto" om te zien wie het is.
    • Maar de "foto" mag niet naar de "beweging" kijken.
    • Analogie: Het is alsof een regisseur (de video) een foto van de acteur bekijkt om te weten hoe hij eruitziet, maar de foto zelf is een statisch schilderij dat niet kan reageren op wat er gebeurt. Zo blijft de acteur zijn eigen identiteit behouden, maar kan hij wel vrij bewegen.

Truc 2: De "Slimme Camera" (Viewpoint-Adaptive Sampling)

Tijdens het trainen van de AI, willen ze niet dat de AI steeds dezelfde foto's ziet (bijvoorbeeld altijd van voren).

  • De strategie: Ze gebruiken een slimme methode om te kiezen welke foto's ze laten zien. Als de AI net een foto van voren heeft gezien, "straffen" ze de AI even om geen andere foto's van voren te kiezen, maar dwingen ze hem om een foto van opzij of achteren te bekijken.
  • Analogie: Het is alsof een leraar een leerling test. Als de leerling net een vraag over "voren" heeft beantwoord, zegt de leraar: "Oké, nu moet je een vraag over 'achteren' beantwoorden, anders leer je het nooit." Zo wordt de AI robuust en kan hij elke hoek van de acteur herkennen.

4. Het Resultaat: Een Echte "Digitale Ster"

Met deze nieuwe methode kan WILDACTOR video's maken waarin:

  • Een persoon van voren naar achteren draait en je ziet nog steeds dezelfde kleding en hetzelfde gezicht.
  • De persoon rennt, springt of dansen, zonder dat het lichaam "oplost" of verandert in een ander persoon.
  • De camera kan inzoomen, uitzoomen of meebewegen, en de persoon blijft consistent.

Kortom:
WILDACTOR is als het bouwen van een perfecte digitale tweeling. Door de AI te trainen met duizenden foto's van elke hoek en door slimme regels te geven over hoe de AI naar die foto's moet kijken, kunnen we nu video's maken waarin digitale acteurs zich gedragen als echte mensen: ze bewegen vrij, maar blijven altijd zichzelf.