WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está usando óculos de realidade aumentada que gravam tudo o que você faz, como pegar uma maçã da mesa ou colocar uma caixa numa prateleira. O problema é que, quando você se move, a câmera também se move. Às vezes, sua mão esconde o objeto, às vezes o objeto sai da tela e depois volta. É como tentar montar um quebra-cabeça 3D enquanto a mesa treme e peças somem e reaparecem.

O papel "WHOLE" apresenta uma solução inteligente para esse caos. Vamos explicar como funciona usando uma analogia simples:

1. O Problema: O "Detetive Cego"

Antes do WHOLE, os computadores tentavam adivinhar onde estava a mão e onde estava o objeto separadamente.

A Mão: O computador olhava para a mão e dizia: "Acho que ela está aqui".
O Objeto: O computador olhava para o objeto e dizia: "Acho que ele está ali".
O Erro: Como eles não conversavam entre si, muitas vezes o computador achava que a mão estava segurando o objeto quando, na verdade, a mão estava passando por cima dele. Ou pior, achava que o objeto estava flutuando no ar (como um fantasma) quando a mão o soltou.

2. A Solução: O "Coreógrafo de Dança"

O WHOLE muda a regra do jogo. Em vez de tratar a mão e o objeto como estranhos, ele os trata como parceiros de dança.

A ideia central é que a mão e o objeto estão sempre "conectados" por uma coreografia invisível. Se a mão se move, o objeto segue. Se a mão para, o objeto para. O WHOLE aprendeu essa "dança" observando milhares de vídeos de pessoas interagindo com objetos.

3. Como Funciona (O Passo a Passo Mágico)

O processo do WHOLE pode ser comparado a um diretor de cinema com um roteiro:

O Roteiro (O "Prior" Gerativo): Imagine que o WHOLE tem um livro de regras mental sobre como as pessoas normalmente pegam e soltam coisas. Ele sabe que, se você vai pegar uma caneca, sua mão se aproxima, fecha os dedos e a caneca se move junto. Isso é o que eles chamam de "prior". É a intuição de como o mundo funciona.
A Gravação (O Vídeo de Entrada): Você dá o vídeo bagunçado (com a câmera tremendo e coisas sumindo) para o sistema.
O Diretor (A "Guia"): Aqui está a mágica. O sistema usa o vídeo para corrigir o roteiro.
- Se o vídeo mostra que a mão está perto de uma caixa, o sistema ajusta a "dança" para que a mão e a caixa se encaixem perfeitamente.
- Se a caixa some da tela (oculta), o sistema usa o "roteiro" (o que ele sabe sobre física e movimento) para imaginar onde a caixa deve estar, mesmo que não a veja. Ele não adivinha aleatoriamente; ele "sonha" a posição mais provável baseada na dança que aprendeu.
O Assistente Inteligente (O VLM): Para saber exatamente quando a mão toca no objeto, o sistema usa um "olho extra" (uma Inteligência Artificial visual) que olha para o vídeo e diz: "Ei, nesse frame, a mão está tocando a caixa". Isso ajuda a manter a coreografia perfeita.

4. O Resultado: Um Filme 3D Perfeito

No final, o WHOLE não devolve apenas um vídeo 2D. Ele devolve um filme 3D completo onde:

Você pode olhar para a cena de qualquer ângulo (como se estivesse voando ao redor da pessoa).
As mãos e os objetos se movem de forma realista e física.
Se o objeto saiu da tela, ele "desaparece" e "reaparece" no lugar certo, sem flutuar.
A relação entre a mão e o objeto faz sentido (a mão segura, o objeto se move; a mão solta, o objeto fica parado).

Resumo em uma Frase

O WHOLE é como um coreógrafo de dança 3D que, ao assistir a um vídeo tremido e confuso de alguém mexendo em coisas, consegue reconstruir toda a cena em 3D, garantindo que as mãos e os objetos se movam juntos de forma natural e realista, mesmo quando partes da cena estão escondidas ou fora de vista.

Isso é crucial para robôs que precisam aprender a fazer tarefas olhando para humanos, ou para criar mundos virtuais onde a interação com objetos parece totalmente real.

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

1. O Problema: O "Detetive Cego"

2. A Solução: O "Coreógrafo de Dança"

3. Como Funciona (O Passo a Passo Mágico)

4. O Resultado: Um Filme 3D Perfeito

Resumo em uma Frase

Título: WHOLE: Reconstrução de Mãos e Objetos no Mundo a partir de Vídeos Ego-Cêntricos

1. O Problema

2. Metodologia (WHOLE)

3. Contribuições Chave

4. Resultados

5. Significado e Impacto

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

1. O Problema: O "Detetive Cego"

2. A Solução: O "Coreógrafo de Dança"

3. Como Funciona (O Passo a Passo Mágico)

4. O Resultado: Um Filme 3D Perfeito

Resumo em uma Frase

Título: WHOLE: Reconstrução de Mãos e Objetos no Mundo a partir de Vídeos Ego-Cêntricos

1. O Problema

2. Metodologia (WHOLE)

3. Contribuições Chave

4. Resultados

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation