WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een bril draagt die alles opneemt wat je ziet, alsof je de wereld door je eigen ogen bekijkt. Dit noemen we een "egocentrische video". Het probleem is dat je handen en de voorwerpen die je vasthoudt vaak in de weg zitten, elkaar verstoppen, of even uit beeld verdwijnen. Voor een computer is het heel lastig om te begrijpen wat er precies gebeurt: Houdt die persoon nu de bliksem vast? Of is de bliksem net op de tafel gelegd?

Deze paper introduceert WHOLE, een slimme nieuwe manier voor computers om dit soort video's te begrijpen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Losse Puzzelelementen"

Tot nu toe probeerden computers vaak twee dingen apart op te lossen:

"Waar zijn de handen?"
"Waar is het voorwerp?"

Maar dit werkt niet goed als je een blikje vastpakt. Als de computer alleen naar de handen kijkt, weet hij niet dat ze een blikje vasthouden. Kijkt hij alleen naar het blikje, dan weet hij niet wie het vasthoudt. Het resultaat is vaak raar: zwevende voorwerpen of handen die door objecten heen gaan, alsof ze spoken zijn.

2. De Oplossing: WHOLE als een "Regisseur met een Geheugen"

WHOLE doet iets anders. Het behandelt handen en voorwerpen niet als losse stukjes, maar als een geheel team.

Stel je voor dat WHOLE een regisseur is die een film draait. Deze regisseur heeft een geheugen (een "generatieve prior") van duizenden films waarin mensen dingen vastpakken, dragen en neerzetten. Hij weet hoe het voelt om een zware doos te tillen of een lichte blik te openen. Hij weet dat als je een hand op een doos legt, de doos mee moet bewegen.

3. Hoe het Werkt: De "Gids" en de "Schets"

WHOLE werkt in twee stappen, alsof het een tekening maakt en die dan verfijnt:

Stap 1: De Ruwe Schets (De Regisseur)
De computer kijkt eerst naar de video en maakt een ruwe schets van waar de handen ongeveer zijn. Dit is niet perfect, het kan wat wazig zijn. Maar de "regisseur" (het AI-model) gebruikt zijn geheugen om te voorspellen: "Oké, de handen zijn hier, en omdat ze een doos vasthouden, moet de doos hier zijn en niet zweven."
Stap 2: De Gids (De Correctie)
Nu komt de slimme truc. WHOLE gebruikt de daadwerkelijke video als een gids.
- Het kijkt naar de video: "Zie je die vlek? Dat is de hand. En zie je die vlek? Dat is het voorwerp."
- Het gebruikt zelfs een AI-assistent (een Vision-Language Model, of VLM) die als een slimme observator fungeert. Deze assistent kijkt naar de video en zegt: "Hé, op dit moment raken de vingers het voorwerp aan!" of "Nee, op dit moment laat hij het los."
- WHOLE gebruikt deze informatie om de ruwe schets te corrigeren. Het zorgt ervoor dat de handen en het voorwerp precies op de plekken in de video zitten waar ze horen te zijn, terwijl ze toch logisch bewegen.

4. Waarom is dit zo cool?

Het ziet door de "blindheid" heen: Als je hand een voorwerp volledig bedekt (occlusie), ziet de camera het voorwerp niet meer. Andere methoden raken dan de draad kwijt. WHOLE denkt echter: "Ik weet dat de hand het vasthoudt, dus het voorwerp moet daar zijn, zelfs als ik het niet kan zien." Het vult de gaten in met logisch denken.
Het is consistent: Het voorwerp zweeft niet door de lucht en de hand gaat niet door de tafel heen. Alles beweegt als één fysiek verhaal.
Het werkt in de echte wereld: Het kan de bewegingen van handen en voorwerpen reconstrueren in een vaste, 3D-ruimte (alsof je de video van buitenaf bekijkt), zelfs als de camera zelf beweegt (zoals op je hoofd).

Samenvattend

WHOLE is als een slimme filmregisseur die een video van een persoon die dingen vastpakt, omzet in een perfecte 3D-film. Hij gebruikt zijn kennis van hoe de wereld werkt (dat handen en voorwerpen samenwerken) en laat zich helpen door een slimme assistent die naar de video kijkt om te zeggen waar de handen en voorwerpen precies zijn. Het resultaat is een reconstructie die niet alleen technisch goed is, maar ook voelt als een echt, natuurlijk menselijk gedrag.

Dit is een enorme stap voor robots die van mensen leren, of voor Virtual Reality-ervaringen die echt aanvoelen alsof je erbij bent.

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

1. Het Probleem: De "Losse Puzzelelementen"

2. De Oplossing: WHOLE als een "Regisseur met een Geheugen"

3. Hoe het Werkt: De "Gids" en de "Schets"

4. Waarom is dit zo cool?

Samenvattend

Probleemstelling

Methodologie: WHOLE

Kernbijdragen

Resultaten

Significantie

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

1. Het Probleem: De "Losse Puzzelelementen"

2. De Oplossing: WHOLE als een "Regisseur met een Geheugen"

3. Hoe het Werkt: De "Gids" en de "Schets"

4. Waarom is dit zo cool?

Samenvattend

Probleemstelling

Methodologie: WHOLE

Kernbijdragen

Resultaten

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation