LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion 提出了一种无需精确 3D 姿态监督的框架,通过利用全局轨迹与单目 2D 运动线索的一致性来学习 3D 动作结构,从而在保持生成质量的同时显著提升了模型的泛化能力。

Sheng Liu, Yuanzhi Liang, Sidan Du

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 LaxMotion 的新方法,用来解决"AI 如何根据文字描述生成 3D 人体动作”的问题。

为了让你轻松理解,我们可以把这项技术想象成教一个学生画画,而不是让他死记硬背地图坐标

1. 以前的做法:死记硬背的“坐标员”

在 LaxMotion 出现之前,大多数 AI 模型学习动作的方式就像是一个死记硬背的地图员

  • 训练方式:老师(数据)给出一段文字(比如“跑步”),然后直接告诉学生:“跑步时,你的左脚必须在 (x=1.2, y=0.5, z=3.0) 的位置,右脚必须在 (x=1.3, y=0.6, z=3.1)……"
  • 问题:学生为了考高分(降低误差),拼命背诵这些具体的数字坐标。
  • 后果
    • 死板:如果题目稍微变一下(比如“在草地上跑步”而不是“在跑步机上”),学生就懵了,因为他只背了特定地点的坐标,没学会“跑步”这个动作的本质。
    • 缺乏创意:每次让他画“跑步”,他画出来的动作都一模一样,因为他在努力还原那个唯一的“标准答案”。

2. LaxMotion 的新思路:理解结构的“观察员”

LaxMotion 的作者认为,我们不应该让学生背坐标,而应该让他理解动作的结构和逻辑。这就好比教学生画画时,不再给坐标,而是给他看单眼视角的草图行走的轨迹

LaxMotion 做了三件聪明的事:

A. 把动作“拆解”成两部分(结构重组)

它不再把动作看作一堆散乱的关节点,而是把动作拆成:

  1. 人往哪走(全身移动的轨迹,比如从 A 点走到 B 点)。
  2. 手脚怎么动(相对于身体的摆动,比如手怎么甩,腿怎么抬)。
  • 比喻:就像你描述一个人跳舞,你不需要说“左手在 3 点钟方向”,你只需要说“他先向左滑步(轨迹),然后右手画个圈(相对动作)”。这样不管他在哪里跳,动作逻辑都是对的。

B. 用“模糊”的线索来训练(放宽监督)

这是最核心的创新。以前必须用精准的 3D 数据(像 3D 扫描一样精确)来训练。LaxMotion 说:“不用那么精确!”

  • 做法:它只给学生看单眼摄像头的 2D 视频(就像你用手机拍的一段视频)和行走的轨迹
  • 比喻:老师不再给标准答案,而是说:“你看这段视频,人是在往右走,手在挥动。请你猜出他在 3D 空间里是怎么动的。”
  • 好处:因为 2D 视频无法唯一确定 3D 动作(同一个 2D 画面可能对应很多种 3D 姿势),这反而逼着 AI 去思考哪种 3D 动作最合理、最自然,而不是死记硬背。这就像让学生做“开放题”,而不是“填空题”。

C. 加上“物理常识”的约束(放松正则化)

既然没有标准答案,怎么保证学生猜得对呢?LaxMotion 加了一些“物理规则”作为检查:

  • 视角一致性:如果你把生成的 3D 动作转到另一个角度看,它看起来应该还是合理的(不能像鬼一样扭曲)。
  • 方向感:人走路时,脚的方向通常和身体朝向是一致的,不能脚朝前走,身体却往后扭。
  • 比喻:就像老师虽然不给你标准答案,但会告诉你:“你画的人不能违反重力,脚不能穿进地板里,转身的时候身体要协调。”只要符合这些常识,答案就是对的。

3. 结果如何?

实验证明,这种“宽松”的教学方法效果出奇的好:

  • 更灵活:AI 能生成更多样化的动作(比如同是“跑步”,它可以跑出悠闲的跑、紧张的跑、甚至微重力下的跑)。
  • 更懂行:它生成的动作更符合文字描述,因为它学会了动作的“神韵”,而不是“形似”。
  • 更省钱:它不需要昂贵的 3D 动捕数据,只需要普通的 2D 视频就能训练,这让 AI 能学习到更多现实中难以捕捉的动作(比如在水下或太空中的动作)。

总结

LaxMotion 就像是一位开明的老师。它不再强迫学生死记硬背枯燥的坐标数据,而是通过展示动作的轨迹2D 轮廓,引导学生去理解动作背后的物理结构和逻辑

这种方法让 AI 从“只会背答案的机器”变成了“真正懂动作的艺术家”,不仅能生成更逼真的动作,还能举一反三,创造出以前从未见过的精彩表演。