SAM 3D Body: Robust Full-Body Human Mesh Recovery

本文提出了 SAM 3D Body(3DB),这是一种基于新型 Momentum Human Rig (MHR) 参数化网格表示的提示式单图全身体 3D 人体网格重建模型,通过多阶段数据管线和辅助提示机制,在多样化野外条件下实现了具有强泛化能力和一致精度的状态最先进性能。

Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SAM 3D Body (简称 3DB) 的新技术。简单来说,它就像一个超级厉害的“数字裁缝”兼“动作捕捉大师”,只需要一张普通照片,就能在电脑里把照片里的人“变”成一个可以 360 度旋转、动作精准的 3D 虚拟人偶。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解它的核心亮点:

1. 它是怎么工作的?(核心架构)

想象一下,以前的 3D 建模软件像是一个只会死记硬背的学徒,看到照片就猜,遇到奇怪姿势(比如手被挡住、人倒立)就容易“脑补”错,把腿变成手臂,或者把身体扭成麻花。

SAM 3D Body 则像是一位经验丰富的老裁缝,手里还拿着可调节的“魔法尺子”

  • 可交互的提示(Promptable): 就像你给裁缝画个草图,或者指着照片说“这里手被挡住了,但我知道大概在哪”,这个模型也能接受你的“提示”(比如你点一下手的位置,或者圈出人的轮廓),它就能根据你的提示来修正结果。
  • 双管齐下(双解码器): 以前的大模型试图用一个大脑同时处理全身和手部,结果往往顾此失彼。3DB 就像裁缝有两个助手:一个专门负责身体躯干的大动作,另一个专门负责手部的精细动作。两个助手分工合作,既保证了身体不歪,手指也能摆得栩栩如生。
  • 新的骨架(MHR): 它不再使用旧的“紧身衣”模型(SMPL),而是换了一套新的“骨架系统”(MHR)。这套系统把骨骼(体型)分开了。就像你可以先调整一个人的骨架姿势,再单独给他换个胖瘦身材,互不干扰,这让模型更灵活、更懂人体结构。

2. 它是怎么变聪明的?(数据引擎)

模型之所以强,是因为它“吃”了海量的数据。但以前的数据大多是实验室里摆拍出来的,或者由电脑自动生成的(容易有错误)。

3DB 的团队造了一个**“数据挖掘机”**:

  • 主动寻找难题: 这个挖掘机不像以前那样随机抓数据,而是像一个挑剔的考官。它会主动去互联网上寻找那些最难拍的图片:比如人倒立、被树挡住了一半、光线很暗、或者姿势很奇怪的“野生”照片。
  • 人工 + 机器双重把关: 找到这些难题后,它先用旧模型猜一遍,然后让真人专家去修正,再结合多角度的视频数据(就像从 100 个不同角度拍一个人,拼凑出完美的 3D 样子)来生成高质量的“标准答案”。
  • 结果: 它训练了 700 万张 这样的高质量图片,涵盖了各种奇葩姿势和场景,所以它见多识广,不再怕“野路子”。

3. 它有多厉害?(效果对比)

论文里做了很多测试,结果非常惊人:

  • 全能选手: 以前的模型要么擅长身体但手很烂,要么擅长手但身体很怪。3DB 是第一个既能把全身动作做得很准,又能把手部细节(比如手指弯曲)做得和专门做手的模型一样好的“全能王”。
  • 抗干扰能力强: 在那些别人模型会“翻车”的极端情况下(比如人只露出上半身,或者手被完全挡住),3DB 依然能猜对大概位置。
  • 人类投票获胜: 他们找了 7800 人 来做“盲测”,让大家在两个模型生成的 3D 人偶中选哪个更像照片里的真人。结果 3DB 赢了 5 次,对手只赢了 1 次(5:1 的胜率),大家一致认为它看起来更自然、更真实。

总结

SAM 3D Body 就像是给计算机视觉领域装上了一双**“火眼金睛”和“灵巧双手”**。

  • 以前: 电脑看照片猜 3D 人,像是在雾里看花,经常把腿看成胳膊,或者手变成一团乱麻。
  • 现在: 有了 3DB,电脑不仅能看清,还能听懂你的指挥(你指哪它改哪),并且能处理各种高难度动作(倒立、遮挡、奇怪视角)。

这项技术未来可以用在游戏制作(自动把真人动作变成游戏角色)、虚拟现实(VR)机器人(让机器人看懂人类动作并模仿)以及医疗康复(分析人的步态和姿势)等各个领域。而且,Meta 已经开源了代码,任何人都可以去下载体验这个“数字裁缝”了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →