Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

该论文提出了一种名为“骨骼到图像编码”(S2I)的新方法,通过将骨骼序列转换为类图像格式,成功利用大规模预训练视觉模型进行自监督骨骼表征学习,有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题,并在多个基准数据集上验证了其优越的泛化能力。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常巧妙的想法,我们可以把它想象成**“给骨架数据穿上一件‘照片’的外衣”**。

为了让你轻松理解,我们先用几个生活中的比喻来拆解它的核心逻辑:

1. 遇到的难题:语言不通的“外星人”

想象一下,现在的计算机视觉领域(比如识别图片、视频)非常发达,就像有一群**“超级翻译官”**(预训练的大模型,如 MAE、DiffMAE)。它们读过海量的照片书,能一眼看出猫和狗的区别,甚至能理解复杂的动作。

但是,这些翻译官只懂**“照片语言”**(像素点组成的图像)。

而我们要研究的**“人体骨架数据”(比如动作捕捉里的关节点),就像是一群只会说“坐标语言”**的外星人。它们只告诉电脑:“左手肘在 (x, y, z) 位置”。

  • 问题在于: 超级翻译官看不懂坐标语言。
  • 以前的做法: 为了教翻译官,以前的科学家必须专门为外星人造一套新的“翻译教材”(设计专门的骨架模型),而且如果外星人说的方言不一样(比如有的数据有 25 个关节,有的只有 13 个),还得重新造一套教材。这既费时又费力,而且很难通用。

2. 核心创新:S2I(骨架转图像编码)

这篇论文的作者想出了一个绝招:既然翻译官只懂照片,那我们就把骨架“伪装”成照片!

这就好比把外星人说的坐标,直接画成了一张画:

  • 怎么画? 作者把人体的关节分成五大块(像拼乐高一样):躯干、左臂、右臂、左腿、右腿。
  • 怎么上色? 把关节的三维坐标(X, Y, Z)直接对应到照片的**红、绿、蓝(RGB)**三个颜色通道上。
    • X 坐标 = 红色
    • Y 坐标 = 绿色
    • Z 坐标 = 蓝色
  • 怎么排版? 把这一连串的动作(时间维度)像翻书一样,一页页叠在一起,最后拼成一张标准的 224x224 像素的“伪照片”。

结果: 原本枯燥的坐标数据,瞬间变成了一张张看起来像“抽象画”的照片。

3. 带来的好处:万能钥匙

一旦骨架变成了“照片”,奇迹就发生了:

  • 直接借用“超级翻译官”: 我们不需要再专门为骨架造模型了,直接把这些“伪照片”扔给那些已经读过海量照片书的预训练大模型(比如 MAE)。这些模型瞬间就能理解骨架里的动作规律,因为它们以为自己在看照片。
  • 不再挑食(通用性): 以前的模型很挑剔,25 个关节的数据和 13 个关节的数据必须分开处理。但现在的“伪照片”不管原数据有多少个关节,最后都拼成了同样大小的照片。这就好比不管外星人说哪种方言,只要翻译成同一种文字,翻译官就能听懂。这使得模型可以同时学习来自不同数据集(NTU, PKU, Toyota 等)的数据,变得非常聪明和通用。

4. 实验效果:事半功倍

作者做了很多实验,结果证明这个方法非常有效:

  • 自学能力强: 即使没有给模型看具体的动作标签(无监督学习),它也能通过“看图猜谜”(掩码重建)学会识别动作。
  • 跨格式无敌: 用 NTU 数据集(25 个关节)训练出来的模型,直接拿去识别 Toyota 数据集(13 个关节)的动作,效果出奇的好。这就像是用中文教材教出来的学生,直接去读英文书也能读得懂,因为掌握了通用的逻辑。
  • 成绩顶尖: 在多个权威测试中,这个方法的表现都达到了世界领先水平,甚至超过了那些专门为骨架设计的复杂模型。

总结

这篇论文的核心思想就是**“化繁为简,借力打力”**。

它不再试图去教计算机如何理解复杂的骨架坐标,而是把骨架数据“翻译”成计算机最擅长的图像格式。这样,我们就能直接利用人类在图像领域积累的巨大智慧(预训练大模型),来解决动作识别的问题。

一句话概括: 作者发明了一种把“骨架坐标”变成“抽象照片”的魔法,让原本只懂看图的人工智能,瞬间学会了看懂人体动作,而且不管动作数据长什么样,它都能通吃。