CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos

本文提出了 CoMoVi 框架,通过构建包含 3D-2D 交叉注意力的双分支扩散模型,在单一去噪循环中同步生成具有结构一致性的 3D 人体运动与高质量 2D 人体视频,并为此发布了大规模标注数据集 CoMoVi-Dataset。

原作者: Chengfeng Zhao, Jiazhi Shu, Yubo Zhao, Tianyu Huang, Jiahao Lu, Zekai Gu, Chengwei Ren, Zhiyang Dou, Qing Shuai, Yuan Liu

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CoMoVi 的新技术,它的核心能力是:当你给 AI 一张人的照片和一个动作描述(比如“跳舞”或“打拳”)时,它能同时生成一段逼真的视频,以及这段视频中人物对应的精确 3D 骨骼动作数据。

为了让你更容易理解,我们可以把这项技术想象成**“双胞胎同步成长”**的故事。

1. 以前的做法:像“先画草图再上色”的笨办法

在 CoMoVi 出现之前,生成 3D 动作和生成视频通常是分开做的,或者是一个接一个做的(像流水线):

  • 方法 A(先做动作): 先让 AI 根据文字生成 3D 骨骼动作,然后再把这个动作“套”到视频模型上。但这就像给一个没有灵魂的空壳穿衣服,动作虽然准,但视频看起来往往很僵硬,甚至像机器人。
  • 方法 B(先做视频): 先让 AI 生成一段很酷的视频,然后再用复杂的算法去“反推”里面的 3D 动作。但这就像试图从一张模糊的照片里还原出精密的机械图纸,很容易出错,导致动作变形(比如手突然多了一根手指,或者腿穿模了)。

痛点: 这两种方法就像两个互不认识的兄弟,一个管“骨架”,一个管“皮肤”,他们之间缺乏沟通,导致做出来的东西要么动作假,要么视频假。

2. CoMoVi 的突破:让“骨架”和“皮肤”同步发育

CoMoVi 的创新在于,它不再把这两个任务分开,而是让它们在同一个“大脑”里同时思考、同时生成

核心比喻:翻译官与双胞胎

想象一下,3D 动作数据(骨架)和 2D 视频(皮肤)是两种完全不同的语言:

  • 3D 动作 像是**“数学坐标语言”**(精确但枯燥)。
  • 2D 视频 像是**“绘画语言”**(丰富但模糊)。

以前的模型很难直接翻译这两种语言。CoMoVi 做了一件非常聪明的事:它发明了一种**“超级翻译官”**(论文中称为 2D 人体动作表示)。

  • 这个翻译官做了什么? 它把 3D 的骨骼信息(比如关节在哪里、身体朝向哪里)巧妙地“画”成了一张特殊的图片。这张图片既保留了 3D 的几何结构(像地图一样精确),又长得像普通的视频帧(像照片一样)。
  • 效果: 这样,原本只懂“绘画语言”的视频生成大模型(VDM),就能直接看懂这张“超级图片”,从而理解 3D 动作的意图。

双引擎驱动(双分支扩散模型)

CoMoVi 就像一个拥有两个大脑半球的超级生物:

  1. 左脑(视频生成): 负责画出逼真的视频,确保人物的衣服、光影、背景都很自然。
  2. 右脑(动作生成): 负责生成精确的 3D 骨骼数据。
  3. 中间的连接(交叉注意力): 这两个大脑时刻在“窃窃私语”。
    • 左脑告诉右脑:“看,这个人的手臂抬起来了,你的骨骼数据也要跟着抬起来,不能乱动。”
    • 右脑告诉左脑:“我的骨骼结构是这么摆的,你画视频的时候,衣服不能穿模,身体比例要协调。”

结果: 它们互相监督、互相修正。视频里的动作既流畅又符合物理规律,而 3D 动作数据也因为视频模型的强大“想象力”而变得非常多样和自然。

3. 为什么需要新数据集?(CoMoVi-Dataset)

要训练这样一个“双胞胎”系统,需要大量的教材。以前的教材要么只有视频没有动作数据,要么只有动作数据没有高清视频。

  • 作者做了什么? 他们像是一个**“数据策展人”**,从互联网上精心挑选了约 5 万段高质量的人类视频。
  • 如何加工? 他们利用最先进的 AI 工具,给每一段视频都配上了:
    1. 精确的 3D 骨骼动作数据(像电影《阿凡达》里的动作捕捉数据)。
    2. 详细的文字描述(比如“一个穿着红裙子的女孩在公园慢跑”)。
    3. 清洗掉了那些多人、模糊或不真实的视频。
      这就像给 AI 准备了一本**“图文并茂、动作精准”的百科全书**,让它能学到最真切的“人类行为学”。

4. 这项技术有什么用?

  • 游戏与电影: 以前做游戏动画需要昂贵的动作捕捉演员,现在输入文字和照片,就能自动生成高质量的角色动画和 3D 数据,大大降低成本。
  • 虚拟现实 (VR/AR): 可以更真实地模拟人类在虚拟世界中的互动。
  • AI 创作: 让普通人也能轻松生成自己想要的动作视频,而且不用担心动作崩坏。

总结

CoMoVi 就像是一位全能导演,它不再让“动作指导”和“摄影指导”分开工作,而是让它们坐在同一个导演椅上,通过一种特殊的“通用语言”实时沟通。

  • 以前: 先写剧本(动作),再拍电影(视频),或者先拍电影再猜剧本。
  • 现在: 剧本和电影同步诞生,互相成就。

这不仅让生成的视频更真实、动作更自然,还直接输出了珍贵的 3D 动作数据,解决了长期以来"3D 动作”与"2D 视频”难以完美融合的难题。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →