Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架,并构建了包含复杂杂技动作的合成数据集,有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让 AI 生成高难度人类动作视频(比如后空翻、侧手翻、武术招式)的新方法。

想象一下,现在的 AI 视频生成器就像一个刚学跳舞的初学者:让它跳简单的“挥手”或“走路”很容易,但一旦让它做“后空翻”这种高难度动作,它往往会把腿扭成麻花,或者让衣服在旋转中突然消失。

为了解决这个问题,作者们设计了一个**“两步走”的聪明策略**,并造了一个**“虚拟训练场”**来教 AI。

以下是用大白话和比喻做的详细解释:

1. 核心难题:为什么现在的 AI 做不到?

  • 文字太模糊:如果你告诉 AI“做一个后空翻”,它知道大概要做什么,但不知道每一帧手脚具体该在哪。就像你指挥一个盲人跳舞,只说“转圈”,他可能会撞墙。
  • 骨架太难画:以前的方法需要用户自己画好每一帧的“火柴人”骨架。但这太难了,画一个流畅的后空翻骨架,比拍个视频还累。
  • 衣服会“融化”:即使有了骨架,AI 在画视频时,一旦人物动作幅度大(比如翻转),衣服上的花纹、鞋子的颜色经常会对不上,或者身体部位(比如手)会突然消失。

2. 解决方案:两步走的“导演 + 演员”模式

作者把任务拆成了两个阶段,就像拍电影一样:

第一步:文字转骨架(AI 导演写剧本)

  • 任务:你输入文字(“一个人做侧手翻”),AI 自动画出一连串精确的“火柴人”骨架动作。
  • 创新点:以前的 AI 是“猜”动作,现在的 AI 像是一个经验丰富的老导演。它采用“自回归”的方式,就像写小说一样,写完这一句(这一帧的动作),再根据上下文写下一句(下一帧的动作)。
  • 比喻:这就像让 AI 先画好一套分镜草图。它不需要你动手,它自己就能理解“手要撑地,脚要踢高”这种复杂的逻辑,保证动作连贯且符合物理规律。

第二步:骨架转视频(AI 演员穿戏服表演)

  • 任务:给 AI 一张参考照片(比如你穿红衣服的样子)和刚才生成的“分镜草图”(骨架),让它生成最终的视频。
  • 创新点(DINO-ALF 技术):这是本文最厉害的地方。
    • 旧方法:以前的 AI 看照片就像看一张模糊的“概念图”(只记得“这是个穿红衣服的人”),一旦动作变大,它就把衣服画乱了。
    • 新方法:作者给 AI 装了一副**“超级显微镜”(DINO-ALF)。这副眼镜能同时看清衣服的纹理细节**(比如红领带的条纹)和整体轮廓
    • 比喻:就像演员在表演高难度动作时,无论怎么翻滚,那件红衣服上的花纹都严丝合缝地跟着身体走,不会变成“红裤子”或者“黑鞋子”。

3. 特别贡献:造了一个“虚拟训练场”

  • 问题:网上很难找到专门教 AI 做“后空翻”、“杂技”的高质量视频数据。现有的数据集大多只有简单的跳舞或走路。而且用网上的真人视频有版权和隐私风险。
  • 解决:作者用 Blender(一种 3D 动画软件)自己造了一个**“虚拟游乐园”**。
    • 他们在电脑里生成了 2000 个视频,里面有各种长相的虚拟人,在各种背景下做各种高难度杂技动作。
    • 比喻:这就像为了训练赛车手,他们自己建了一个完美的虚拟赛道,而不是在混乱的公路上练车。这样既安全,又能让 AI 专门练习那些高难度动作。

4. 效果怎么样?

  • 动作更自然:生成的视频里,手脚不会乱飞,动作像真人一样流畅。
  • 细节更清晰:即使在快速旋转中,衣服的花纹、鞋子的颜色也能保持原样,不会“穿帮”。
  • 对比测试:在多个测试中,他们的方法比目前最先进(SOTA)的其他 AI 模型都要好,特别是在保持人物长相一致和动作平滑度上。

总结

这篇论文就像给 AI 视频生成器配了一套**“专业体操教练”(自动写骨架)和一副“防抖高清护目镜”**(DINO-ALF 保持细节)。

以前,你让 AI 做高难度动作,它可能会“摔跟头”或“走样”;现在,有了这套方法,AI 不仅能稳稳地完成后空翻,还能保证你穿的那件花衬衫在翻滚过程中毫发无损。这为未来的虚拟教练、电影特效预演和虚拟人动画打开了新的大门。