Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

本文提出了一种结合分层时序剪枝策略的高效扩散模型框架,通过时序相关性增强、稀疏注意力机制及语义剪枝技术,在显著降低计算成本并大幅提升推理速度的同时,实现了 3D 人体姿态估计的顶尖性能。

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HTP 的新方法,旨在解决"3D 人体姿态估计”中一个非常头疼的问题:太慢了,太费电了

为了让你更容易理解,我们可以把这项技术想象成**“制作一部动作电影的特效”**。

1. 背景:为什么现在的技术“太慢”?

想象一下,你想用电脑生成一个真人在视频里跳舞的 3D 模型。

  • 传统方法(Transformer):像是一个勤奋但有点死板的剪辑师。他要把视频里的每一帧(比如 243 帧)都仔细检查一遍,看看这一帧和下一帧有什么关系。虽然准,但如果视频很长,工作量就大得惊人。
  • 扩散模型(Diffusion Models,本文的主角):像是一个追求完美的艺术家。为了画出完美的 3D 动作,他不能只画一笔,而是要像“去噪”一样,从一团模糊的噪点开始,反复修改(比如修改 10 次),每次修改都要重新审视整段视频。
    • 问题:这位艺术家虽然画得极好(精度很高),但他太“较真”了。他要把每一帧、每一个关节都反复推敲,导致电脑算力(MACs)爆炸,生成速度极慢,普通电脑根本跑不动。

2. 核心方案:HTP(分层时间剪枝)

作者提出了一种聪明的策略,叫 HTP。你可以把它想象成给这位“较真的艺术家”请了一位**“精明能干的制片助理”**。

这位助理的任务是:在艺术家开始工作前,先帮他删掉那些没用的素材,只保留最关键的,但绝不破坏动作的连贯性。

这个助理的工作分三步走(也就是论文里的三个模块):

第一步:TCEP —— “挑选关键镜头” (帧级剪枝)

  • 场景:视频里有 243 帧画面。
  • 问题:有些帧是静止的(比如人站着不动),有些帧是动作过渡(比如手刚抬起来)。如果每一帧都让艺术家去画,太浪费了。
  • 助理的做法
    • 助理会快速浏览视频,计算帧与帧之间的“相似度”。
    • 如果第 10 帧和第 11 帧人几乎没动,助理就会说:“这两帧太像了,留第 10 帧,把第 11 帧删掉吧!”
    • 比喻:就像看一部电影,如果主角在发呆,剪辑师会直接快进,只保留他说话或做动作的关键瞬间。
    • 结果:视频变短了,但动作的“骨架”还在。

第二步:SFT MHSA —— “专注看重点” (稀疏注意力)

  • 场景:现在视频变短了,但艺术家(模型)还是习惯性地要把所有剩下的帧都互相“看”一遍(计算注意力)。
  • 问题:即使帧少了,如果还要让每一帧都去和所有其他帧“对话”,计算量依然很大。
  • 助理的做法
    • 助理给艺术家发了一张**“重点名单”**(掩码 Mask)。
    • 名单上写着:“第 5 帧只和第 3 帧、第 8 帧有关,别去管第 20 帧了,它们没关系。”
    • 比喻:就像你在开会时,老板只让你和跟你项目相关的人讨论,禁止你和其他无关部门闲聊。这样大家沟通效率极高。
    • 结果:计算量进一步大幅减少,而且因为只关注相关的帧,动作更连贯。

第三步:MGPTP —— “提炼核心动作” (语义级剪枝)

  • 场景:经过前两步,视频帧少了,但每一帧里的人体有 17 个关节(头、手、脚等),有些关节(比如手指)在动作中变化不大,有些(比如膝盖)变化剧烈。
  • 问题:还要把所有关节都算一遍吗?
  • 助理的做法
    • 助理使用一种**“聚类”**技术。他把那些长得像、动作像的关节“打包”在一起。
    • 比如,把“左手小拇指”和“左手无名指”合并成一个代表“左手”的符号,只保留最关键的“左手”信息。
    • 比喻:就像写摘要,不需要把整本书的每个字都抄下来,只需要提炼出“主角在跑步”这个核心意思。
    • 结果:数据量被压缩到了极致,但保留了动作最核心的“灵魂”。

3. 最终效果:又快又好

经过这“三步走”的优化:

  • 速度:生成 3D 动作的速度提升了 81%(快了一倍多)。
  • 算力:电脑需要的计算量减少了 56%(省了一半的电和算力)。
  • 质量:最神奇的是,虽然删掉了很多数据,但生成的 3D 动作反而更准了(误差更小)。

为什么?
因为之前的方法是在“垃圾”和“黄金”里一起找黄金,效率低且容易看花眼。HTP 的方法是先帮艺术家把“垃圾”(冗余帧、冗余关节)清理掉,让艺术家只专注于“黄金”(关键动作),所以既快又准。

4. 总结

这就好比:

  • 以前的方法:让一个画家在 1000 张画纸上,每张都画满细节,最后挑最好的。累死且慢。
  • HTP 方法:先让一个助手把 1000 张纸里重复的、没用的撕掉,只留下 50 张最关键的;再告诉画家:“你只需要关注这 50 张纸里的核心线条,不用管边角料。”
  • 结果:画家画得飞快,而且因为干扰少了,画得更好。

这项技术让原本只能在超级计算机上跑的“高精度 3D 动作捕捉”,未来有望在普通电脑甚至手机上流畅运行,用于游戏、VR 互动和机器人控制。