WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Das Paper stellt WHOLE vor, eine Methode, die durch einen generativen Prior Hand- und Objektbewegungen gemeinsam aus Egocentric-Videos rekonstruiert, um die Herausforderungen von Okklusionen und inkonsistenten Beziehungen zu überwinden und damit den aktuellen Stand der Technik in der Pose-Schätzung zu verbessern.

Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du trägst eine Kamera auf deiner Brust oder auf einer Brille, die alles aufzeichnet, was du siehst – genau so, wie du es erlebst. Das nennt man „egozentrisches Video". Wenn du jetzt in deinem Wohnzimmer herumwandelst, eine Dose vom Regal nimmst und sie auf den Tisch stellst, passiert etwas Komplexes: Deine Hände bewegen sich, die Objekte bewegen sich, und die Kamera wackelt mit dir mit.

Das Problem für Computer ist riesig:

  1. Verdeckungen: Deine Hände verdecken oft die Objekte (oder umgekehrt).
  2. Verschwinden: Objekte kommen aus dem Bild und verschwinden wieder.
  3. Chaos: Die Kamera bewegt sich wild, selbst wenn die Dose stillsteht.

Bisherige Computerprogramme waren wie ein Team von Spezialisten, die sich nicht unterhielten: Einer schaute nur auf die Hände, ein anderer nur auf die Objekte. Das Ergebnis war oft chaotisch – die Hände schwebten durch die Luft oder die Dose schwebte durch die Wand.

Hier kommt WHOLE ins Spiel.

Was ist WHOLE? (Die „Gedanken-Blase" für Bewegungen)

Stell dir WHOLE vor als einen erfahrenden Choreografen, der nicht nur die Hände oder die Objekte sieht, sondern die ganze Geschichte versteht.

1. Der große Plan (Das generative Vorwissen)
Bevor WHOLE überhaupt ein Video sieht, hat es Millionen von Stunden lang gelernt, wie Hände und Objekte sich natürlich bewegen. Es hat eine Art „Gedächtnis" oder eine Regel für Physik und Logik im Kopf.

  • Die Analogie: Stell dir vor, du hast einen Tänzer, der weiß, wie man einen Stuhl hebt. Er weiß: Wenn ich den Stuhl greife, muss meine Hand fest sitzen, und der Stuhl muss sich mitbewegen. Er weiß auch: Wenn ich loslasse, fällt der Stuhl nicht durch den Boden, sondern bleibt auf dem Tisch.
    WHOLE hat diese Regeln gelernt, indem es eine künstliche Intelligenz (ein sogenanntes Diffusionsmodell) trainiert hat. Dieses Modell ist wie ein Künstler, der aus dem Nichts plausible Bewegungen „malen" kann.

2. Die Führung (Die Anleitung durch das Video)
Jetzt bekommt WHOLE dein Video. Aber es schaut nicht nur hin und kopiert pixelweise. Es nutzt das Video als Leitfaden.

  • Die Analogie: Stell dir vor, du malst ein Bild, aber du hast nur eine grobe Skizze und ein paar Hinweise von einem Freund. Dein Freund sagt: „Hier ist eine Hand, hier ist eine Dose, und an dieser Stelle berühren sie sich."
    WHOLE nutzt diese Hinweise (z. B. wo die Hand im Bild ist, wo die Dose ist) und sagt: „Okay, basierend auf meinem großen Wissen über Physik, wie müsste sich die Dose bewegen, damit sie von der Hand gehalten wird?"

3. Der VLM-Helfer (Der Augenschein)
Ein besonderes Werkzeug ist ein „Vision-Language-Model" (VLM). Das ist wie ein sehr aufmerksamer Assistent, der das Video anschaut und sagt: „Aha, hier berührt die Hand die Dose wirklich, sie ist nicht nur in der Nähe."

  • Die Metapher: Früher haben Computer oft gedacht, eine Hand sei in der Nähe einer Dose, wenn sie nur nah dran war. Unser Assistent schaut genauer hin und sagt: „Nein, da ist ein echter Kontakt." Das hilft WHOLE, die Physik korrekt zu berechnen.

Warum ist das so cool?

Stell dir vor, du filmst jemanden, der eine Orange vom Tisch nimmt.

  • Der alte Computer: Er sieht die Orange, dann ist sie verdeckt von der Hand, dann ist sie wieder da. Der Computer denkt: „Vielleicht ist die Orange teleportiert worden?" oder „Die Hand ist durch die Orange geflogen."
  • WHOLE: Es denkt: „Ah, die Hand hat die Orange gegriffen. Auch wenn ich die Orange für 2 Sekunden nicht sehen kann, weil die Hand davor ist, weiß ich, dass sie sich weiterbewegt, genau wie die Hand. Und wenn die Hand loslässt, bleibt die Orange auf dem Tisch."

WHOLE rekonstruiert also nicht nur, was man sieht, sondern was geschehen sein muss, damit es logisch ist. Es fügt die Lücken im Video mit gesundem Menschenverstand (bzw. gelernter Physik) auf.

Das Ergebnis

Das Ergebnis ist eine 3D-Welt, die sich wie eine echte Welt anfühlt:

  • Die Hände bewegen sich natürlich.
  • Die Objekte schweben nicht durch die Luft.
  • Wenn die Kamera sich dreht, bleiben die Objekte stabil an ihrem Platz in der Welt.

Zusammengefasst: WHOLE ist wie ein Regisseur, der ein Video aus einer verwackelten, chaotischen Kameraaufnahme nimmt und daraus einen perfekten, logischen 3D-Film macht, in dem Hände und Objekte sich genau so verhalten, wie es die Gesetze der Physik und die menschliche Intuition erwarten. Es verbindet das, was wir sehen, mit dem, was wir wissen, wie die Welt funktioniert.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →