WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

该论文提出了 WHOLE 方法,通过从第一人称视频中学习手 - 物运动的生成先验,实现了对遮挡和视场外情况下的手与物体在世界坐标系中的联合重建,显著优于现有的独立预测方案。

Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你戴着一副智能眼镜,正在厨房里忙碌:左手拿着牛奶盒,右手去拿桌上的苹果,然后转身把牛奶放进冰箱。

对于人类来说,这很简单。但对于计算机来说,这简直就是一场**“视觉噩梦”**。

为什么?

  1. 手会挡住物体:当你拿杯子时,手挡住了杯子,电脑就“瞎”了。
  2. 物体进进出出:杯子被拿到桌子底下,或者被手完全遮住,电脑就不知道它去哪了。
  3. 视角在晃动:因为是你(戴着眼镜的人)在动,画面一直在晃,电脑很难分清是物体在动,还是你在动。

现有的电脑程序通常只能“管中窥豹”:要么只算手怎么动,要么只算物体怎么动,而且一旦它们分开算,最后拼起来时,手和物体经常对不上号(比如手穿过了物体,或者物体悬浮在半空)。

这篇论文介绍了一个叫 WHOLE 的新方法,它就像一位**“全能导演”**,能完美还原整个场景。

🎬 WHOLE 是怎么工作的?

我们可以把 WHOLE 的工作流程想象成**“先写剧本,再根据现场情况即兴发挥”**。

1. 学习“常识”:先当个“老戏骨” (Generative Prior)

在正式看视频之前,WHOLE 先看了成千上万段人类拿东西的视频,学会了**“手和物体互动的常识”**。

  • 比喻:就像一位老演员,他不需要看剧本也知道:如果手要拿杯子,手必须包住杯子;如果杯子被拿起,它必须跟着手走;如果手松开了,杯子要么掉下来,要么被放在桌子上。
  • 这个“常识库”就是论文里说的生成式先验(Generative Prior)。它知道手和物体在物理世界里应该怎么配合。

2. 观看视频:戴上“侦探眼镜” (Visual Guidance)

现在,WHOLE 开始看你的第一人称视频了。

  • 遇到遮挡怎么办? 视频里手挡住了杯子,电脑看不见杯子。这时候,WHOLE 会调用刚才学到的“老戏骨”经验:“哦,虽然我看不到杯子,但根据手的动作,杯子肯定在这里。”
  • 遇到物体消失怎么办? 杯子被拿进抽屉看不见了。WHOLE 会想:“虽然它不在画面里,但根据它之前的运动轨迹和手的动作,它应该还在抽屉里继续移动。”

3. 关键助手:AI 大模型当“裁判” (VLM Contact Cues)

为了更精准,WHOLE 请了一位**“视觉语言大模型(VLM)”**当裁判。

  • 比喻:你给 VLM 看一张图,问它:“现在手碰到杯子了吗?”VLM 就像一个经验丰富的裁判,能识别出复杂的场景,告诉 WHOLE:“是的,第 10 秒手碰到了杯子,第 20 秒松开了。”
  • 这个裁判会不断修正 WHOLE 的猜测,确保手和物体的接触点是真实的,而不是凭空想象的。

4. 最终合成:从“局部”到“全局” (World-Grounded)

最后,WHOLE 把这一切整合起来。它不再是从你眼镜的晃动视角看世界,而是构建了一个稳定的 3D 世界地图

  • 在这个地图里,无论你怎么转圈、怎么遮挡,手和物体的运动轨迹都是连贯的、符合物理规律的。
  • 它能把那些“断片”的视频片段,像拼图一样完美地拼成一条流畅的 4D(3D 空间 + 时间)轨迹。

🌟 为什么 WHOLE 很厉害?

以前的方法就像**“盲人摸象”**:

  • 摸手的人说手在动。
  • 摸物体的人说物体在动。
  • 最后拼起来,手和物体经常打架(比如手穿模进物体里,或者物体飘在空中)。

WHOLE 则是**“全局思维”**:

  • 它同时思考手和物体,把它们当成一个整体。
  • 结果:即使物体被完全挡住,WHOLE 也能根据手的动作,**“脑补”**出物体最合理的运动轨迹,而且非常自然、真实。

🚀 这有什么用?

  1. 教机器人干活:机器人看人类演示视频,以前只能看懂“手在动”,现在能看懂“手怎么拿杯子、杯子怎么被移动”,学得更像人。
  2. 沉浸式 VR/AR:在虚拟世界里,你的虚拟手和虚拟物体互动时,不会再出现穿模或悬浮的尴尬,体验更真实。
  3. 理解人类行为:帮助计算机真正理解人类在做什么,而不仅仅是识别动作标签。

总结一下:
WHOLE 就像一位拥有物理常识的超级导演,它不仅能看清画面,还能在画面模糊、物体被遮挡时,凭借对“手和物体如何互动”的深刻理解,把整个故事(3D 运动轨迹)完美地还原出来。它让计算机第一次真正学会了像人一样,在动态、混乱的第一人称视角中,理解手与世界的互动。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →