PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

本文提出了 PRISM 模型,通过构建基于关节解耦的潜在空间实现结构化运动表示,并引入无噪声条件注入机制统一了文本驱动、姿态条件生成及长序列流式合成任务,从而在单一基础模型中实现了多任务状态下的最优性能。

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一位电影导演,手里拿着一份剧本(文字描述),想要指挥一群3D 动画师(AI 模型)在屏幕上表演一段精彩的动作戏。

以前的动画师虽然很努力,但总有两个大毛病:

  1. 记性不好且混乱:他们把每个动作瞬间(比如“手挥动”、“脚落地”、“身体前倾”)全部揉成一团乱麻记在一个大脑子里。结果就是,手和脚的动作经常打架,导致人物走路像踩了香蕉皮(脚滑),或者身体像果冻一样抖动。
  2. 只能演短剧:如果剧本很长,或者需要接着上一段戏继续演,他们就会“断片”。演着演着,人物就忘了自己刚才在哪,或者动作越来越僵硬,最后直接“死机”。

这篇论文提出的 PRISM,就像是一位超级导演助手,它用两个绝招解决了这些问题:

绝招一:给每个关节发一张“专属身份证” (Per-Joint Latent Decomposition)

以前的做法
就像把整个身体的动作压缩成一张巨大的、模糊的合影。AI 看这张照片时,很难分清哪部分是手,哪部分是脚,只能靠猜。

PRISM 的做法
它把身体拆解开来,给每一个关节(头、肩膀、手肘、膝盖、脚……)都发了一张专属的“身份证”(Token)

  • 这就好比把原本的一团乱麻,整理成了一张整齐的表格:每一行代表时间,每一列代表一个关节。
  • 好处:AI 现在可以清楚地看到:“哦,这一秒是‘左手’在动,‘右手’在休息”。它不再需要费力去猜动作的结构,直接就能精准控制每个关节。
  • 效果:动作瞬间变得丝滑、自然,再也没有那种诡异的抖动或脚滑现象。哪怕不改变 AI 的大脑(生成模型),光靠整理好这张“身份证表格”,画质就提升了一大截。

绝招二:给每个动作贴上“时间标签” (Noise-Free Condition Injection)

以前的做法
如果你想让动画师“接着刚才的动作继续演”,以前的方法很笨拙。要么重新训练一个专门的模型,要么像拼乐高一样,把两段视频硬拼在一起,中间总有明显的接缝(断层)。而且,演得越长,错得越离谱(误差累积)。

PRISM 的做法
它给每个“关节身份证”都贴上了一个特殊的“时间标签”

  • 已知的动作(比如你给定的起始姿势,或者上一段演完的结尾):贴上“干净标签”(时间=0),告诉 AI:“这部分是确定的,别动,照着演。”
  • 未知的动作(需要 AI 发挥的部分):贴上“噪音标签”,让 AI 去“去噪”并创造新动作。
  • 好处
    • 万能接口:无论是“根据文字生成动作”、“根据姿势生成动作”,还是“无限续写长视频”,AI 只需要用同一套逻辑处理。它不需要换脑子,只需要看标签就知道该“照做”还是“创作”。
    • 无缝衔接:因为 AI 在训练时就被教导如何“在已知动作的基础上继续创作”,所以它生成的长视频就像流水一样自然,完全没有接缝。
    • 自我纠错:它还有一种“自我强迫”的训练法(Self-forcing),就像让演员在排练时,不仅要背台词,还要假设“如果上一句我演错了,下一句我该怎么接”。这让它即使演几十分钟的长戏,也不会跑偏或崩溃。

总结:PRISM 能做什么?

有了这两个绝招,PRISM 就像一个全能动作导演

  1. 听指挥:你说“一个战士蹲下躲过箭雨”,它就能生成逼真的动作。
  2. 看姿势:你给它一个起始动作,它就能顺着这个姿势继续演下去。
  3. 演长剧:你可以给它一段很长的故事(比如“战士走进门,躲藏,然后翻滚起身”),它能一口气流畅地演完,中间没有卡顿,没有漂移,动作连贯得像真人一样。

一句话概括
PRISM 通过把身体动作“分门别类”地整理清楚,并给已知和未知的动作贴上不同的标签,让 AI 第一次能够像人类一样,既精准控制细节,又能无限流畅地演绎长篇故事。这不仅仅是让动作更好看,更是让 AI 真正学会了“理解”身体的结构。