DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

DuoMo 提出了一种基于双扩散模型的生成式方法,通过分别处理相机空间估计与世界空间全局一致性优化,实现了从含噪或不完整视频中直接生成网格顶点的世界坐标人体运动重建,并在多个基准测试中取得了显著优于现有技术的性能。

Yufu Wang, Evonne Ng, Soyong Shin, Rawal Khirodkar, Yuan Dong, Zhaoen Su, Jinhyung Park, Kris Kitani, Alexander Richard, Fabian Prada, Michael Zollhofer

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DuoMo 的新系统,它的核心任务是:只通过普通的单眼摄像头视频(比如手机拍的视频),就能精准地还原出人在真实世界中的三维动作。

想象一下,你正在看一段别人用手机拍的跑步视频。视频里,人跑着跑着可能走出了画面,或者被树挡住了,而且手机本身也在晃动。DuoMo 就像一位拥有“透视眼”和“超级记忆力”的导演,它能从这些混乱、不完整的画面中,把这个人原本在真实世界里是怎么跑、跑了多远、有没有摔倒,完美地“脑补”并重建出来。

为了让你更容易理解,我们可以把 DuoMo 的工作流程比作**“双人接力赛”**:

1. 核心挑战:看视频 vs. 懂世界

现在的技术通常面临一个两难选择:

  • 要么很擅长分析视频里的动作(比如人在画面里怎么摆姿势),但一旦人走出画面或镜头晃动,它就晕了,不知道人在真实世界里的位置。
  • 要么很擅长理解真实世界的物理规律(比如人不能穿墙,脚不能滑来滑去),但很难从杂乱的单眼视频里直接猜出动作。

DuoMo 的绝招是:把这两个任务拆开,交给两个专门的“专家”来完成。

2. 第一棒专家:镜头里的“观察者” (Camera-Space Model)

  • 角色:就像一位站在摄影机旁边的现场摄影师
  • 任务:它只看视频画面。它不管人在真实世界里跑了多远,只关心“在这个镜头的视角里,人的手脚是怎么动的”。
  • 能力:它非常擅长从模糊、晃动甚至部分遮挡的画面中,提取出人的动作轮廓。
  • 比喻:就像你透过窗户看外面的人,你能看清他手舞足蹈的样子,但你不知道他具体离你有多远,也不知道他是不是在往左跑还是往右跑(因为窗户在动)。

3. 第二棒专家:真实世界的“导航员” (World-Space Model)

  • 角色:就像一位拥有上帝视角的导航员
  • 任务:它接收第一棒专家传来的“初步动作”,然后把它**“翻译”**到真实世界的坐标系里。
  • 能力:它负责**“纠错”和“补全”**。
    • 纠错:如果第一棒专家因为镜头晃动算错了位置,导航员会根据物理常识(比如人不能瞬移、脚落地时不能打滑)把动作修正得符合物理规律。
    • 补全:如果人走到树后面看不见了(被遮挡),导航员会根据之前的运动轨迹,**“脑补”**出人躲在树后继续跑的动作,直到人再次出现。
  • 比喻:就像导航员拿着第一棒给的草图,说:“等等,根据地图,你刚才那个动作在真实世界里应该是这样的,而且你刚才躲进树丛时,其实还在继续往前跑,而不是消失了。”

4. 独特的“不依赖模型”设计

以前的很多方法,就像是在玩**“填字游戏”**:它们必须先猜出人的骨架参数(比如 SMPL 模型),然后再把骨架套上衣服。这就像先画个火柴人,再强行把火柴人塞进视频里,有时候会显得僵硬或不自然。

DuoMo 的做法更直接:它不玩填字游戏,而是直接**“捏泥人”**。

  • 它直接生成构成人体表面的成千上万个**“顶点”**(就像捏陶土一样,直接塑造形状)。
  • 比喻:以前的方法是先买一个标准的塑料人体模型,再给它穿件衣服;DuoMo 是直接拿一团橡皮泥,根据视频里的光影和动作,直接捏出那个人的样子。这样更灵活,能还原更细微的动作(比如手指的弯曲、衣服的褶皱)。

5. 为什么它这么厉害?(三大亮点)

  1. 接力赛模式(Dual Motion Diffusion)
    就像接力赛,第一棒负责“看清”,第二棒负责“想对”。这种分工让它们既保留了看视频的灵活性,又拥有了理解物理世界的严谨性。

  2. 自带“指南针”和“尺子” (Guided Sampling)
    在重建过程中,DuoMo 会不断自我检查:

    • 指南针(2D 重投影):时刻检查重建出来的人影,是不是还和原视频里的影子重合?如果不重合,就微调一下,防止人“飘”走。
    • 尺子(位移引导):如果人躲了很久(比如过了 2 秒才出来),它会计算这段时间人应该跑了多远,确保人出来时的位置是合理的,不会突然瞬移。
  3. 适应各种“野生”环境
    很多以前的方法只能在实验室里(地面是平的,光线是好的)工作。DuoMo 专门训练过,能在**“野生”环境**(比如楼梯、山坡、晃动的手持镜头)中工作。它不依赖固定的地面坐标系,而是以“视频开始时的镜头”为原点,灵活适应各种地形。

总结

DuoMo 就像是一个**“超级电影特效师”。你给它一段普通的、甚至有点晃动的手机视频,它能通过“先观察局部,再修正全局”**的双人配合,直接捏出人在真实世界里最真实、最连贯的三维动作,哪怕人中途被挡住了,它也能完美地“脑补”出那段消失的动作。

这项技术未来可以用于:

  • 电影制作:不用昂贵的动作捕捉服,用手机拍就能做特效。
  • 体育分析:分析运动员在真实赛场上的跑动轨迹。
  • VR/AR:让虚拟角色在真实世界里更自然地互动。
  • 自动驾驶:更精准地预测行人在复杂环境下的真实动向。