PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

PoseCraft is een diffusion-framework dat tokeniseerde 3D-landmarken en cameraparameters gebruikt als discrete conditionering om fotorealistische menselijke afbeeldingen te synthetiseren met precieze pose- en cameracontrole, terwijl het de 3D-semantiek behoudt en details zoals kleding en haar beter vastlegt dan bestaande methoden.

Zhilin Guo, Jing Yang, Kyle Fogarty, Jingyi Wan, Boqiao Zhang, Tianhao Wu, Weihao Xia, Chenliang Zhou, Sakar Khattar, Fangcheng Zhong, Cristina Nader Vasconcelos, Cengiz Oztireli

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

PoseCraft: De Digitale Poppenkast die Eindelijk "Werkelijk" Voelt

Stel je voor dat je een poppenkast hebt. In de oude wereld van computeranimatie moest je voor elke pop eerst een ingewikkeld skelet van hout en touwtjes bouwen (dat heet "rigging"). Als je de pop wilde laten dansen, trok je aan die touwtjes. Het probleem? Het kostte jaren om die poppen te bouwen, en als de pop een rare houding aannam, zag het er vaak raar uit of viel de kleding uit elkaar.

Aan de andere kant hebben we nu slimme AI's die foto's kunnen maken. Maar als je die AI vraagt: "Maak een foto van deze persoon, maar nu met de armen omhoog en vanuit een andere hoek," dan begint de AI te gissen. Het maakt vaak rare fouten: een arm die verdwijnt, een gezicht dat vervormt, of kleding die niet logisch beweegt. De AI ziet alleen een platte foto, niet de echte 3D-wereld.

PoseCraft is de oplossing die deze twee werelden combineert. Het is als het geven van een 3D-baanschema aan een kunstenaar, in plaats van alleen een platte tekening.

Hier is hoe het werkt, in simpele termen:

1. De "RigCraft": De Onzichtbare Regisseur

Eerst moet het systeem weten waar de persoon echt staat in de ruimte.

  • Het probleem: Als je naar één camera kijkt, weet je niet hoe ver weg een hand is.
  • De oplossing (RigCraft): Het systeem gebruikt meerdere camera's tegelijk (zoals een team van regisseurs rondom een acteur). Het pakt de 2D-punten van de camera's en rekent ze om naar een stabiel 3D-punt in de lucht.
  • De analogie: Stel je voor dat je een bal in de lucht probeert te vangen. Als je met één oog kijkt, zie je niet precies waar hij is. Maar als drie vrienden elk vanuit een andere hoek naar de bal wijzen, kun je precies berekenen waar de bal zweeft. RigCraft doet dit voor elk gewricht van het lichaam, en maakt de beweging soepel zodat het niet "trilt" als een slechte video.

2. De "PoseCraft": De Kunstenaar met een Magisch Kompas

Nu hebben we de 3D-coördinaten van het lichaam. Hoe maken we daar een prachtige foto van?

  • De oude manier: Je gaf de AI een platte tekening van een skelet (een "OpenPose" kaart). De AI moest dan raden hoe de kleding eruit zou zien.
  • De PoseCraft-methode: In plaats van een platte kaart, geven we de AI digitale "token's" (kleine digitale blokken met informatie).
    • We zeggen de AI niet alleen: "De arm is hier."
    • We zeggen ook: "De camera staat hier, en kijkt vanuit deze hoek."
  • De analogie: Stel je voor dat je een schilder wilt opdracht geven om een portret te maken.
    • Oude methode: Je geeft hem een foto van een stokman en zegt: "Teken hier iemand." De schilder moet raden hoe de jas eruitziet.
    • PoseCraft: Je geeft de schilder een 3D-model van de stokman en een kompas dat precies aangeeft waar jij staat om te kijken. De schilder hoeft niet meer te raden; hij weet precies hoe de jas in het licht valt en hoe de schaduwen vallen.

3. GenHumanRF: De Grote Bibliotheek

Om deze kunstenaar (de AI) te leren, hebben ze duizenden voorbeelden nodig. Ze hebben een systeem gebouwd (GenHumanRF) dat automatisch duizenden foto's maakt van mensen in verschillende houdingen, zodat de AI kan oefenen. Het is alsof je een school bouwt waar de AI elke dag urenlang oefent met het schilderen van mensen in 3D.

Waarom is dit zo cool?

  • Geen meer "Ghost Limbs": Omdat de AI de echte 3D-positie kent, verdwijnen armen of benen niet als je de camera draait.
  • Haar en Kleding: De AI kan fijne details zoals losse haren of plooien in een jurk heel realistisch maken, zelfs als de persoon een rare houding aanneemt.
  • Geen ingewikkeld werk: Je hoeft geen dure 3D-modellen te bouwen of jarenlang te sleutelen aan poppen. Het systeem werkt direct met de beweging.

Kortom: PoseCraft is als het geven van een 3D-baanschema aan een super-slimme kunstenaar. In plaats van dat de kunstenaar moet gissen naar de diepte en de hoek, krijgt hij de exacte coördinaten. Het resultaat? Mensen die eruitzien alsof ze echt in de kamer staan, zelfs als ze een beweging maken die nog nooit eerder is gefilmd.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →