Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation
本文提出了 TAR-ViTPose,一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer,通过引入关节中心时序聚合(JTA)和全局恢复注意力(GRA)机制,有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题,从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。