Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Deux Langues Différentes

Imaginez que vous avez deux amis très intelligents :

Le Grand Expert Visuel (les modèles de vision par ordinateur comme ceux qui reconnaissent les chats ou les voitures dans les photos). Il est formé sur des milliards de photos. Il voit le monde en images (des grilles de pixels colorés).
L'Expert du Squelette (les systèmes qui analysent le mouvement humain). Il regarde des squelettes : une série de points (les articulations) reliés par des lignes, qui bougent dans le temps.

Le problème, c'est que ces deux experts ne parlent pas la même langue.

L'Expert Visuel regarde une photo de 224x224 pixels.
L'Expert Squelette regarde une liste de coordonnées (x, y, z) pour 25 points qui bougent.

Si vous essayez de donner un squelette à l'Expert Visuel, il est perdu. C'est comme essayer de donner une partition de musique à un peintre en lui disant "peins ça". De plus, il n'y a pas assez de "photos de squelettes" pour entraîner un expert du mouvement de zéro. C'est comme vouloir apprendre à un enfant à jouer du piano sans jamais lui montrer de piano ni lui donner de leçons.

La Solution Magique : Le "Traducteur" (S2I)

Les chercheurs de cet article ont inventé un traducteur génial qu'ils appellent S2I (Skeleton-to-Image Encoding, ou "Encodage Squelette-vers-Image").

Voici comment cela fonctionne, étape par étape, avec une analogie :

1. Le Tri des Pièces de Lego

Imaginez que le squelette humain est une boîte de Lego. Souvent, les boîtes de Lego sont différentes selon le fabricant (certaines ont 25 pièces, d'autres 13, d'autres 20). C'est le problème des données de squelettes : elles ne sont pas uniformes.

L'astuce de S2I, c'est de ne pas regarder les pièces une par une. Au lieu de cela, on regroupe les pièces par partie du corps :

Le tronc (le corps central).
Le bras gauche.
Le bras droit.
La jambe gauche.
La jambe droite.

Peu importe si le squelette a 13 ou 25 points, on les range toujours dans ces 5 "tiroirs" logiques.

2. La Transformation en Tableau de Peinture

Une fois les pièces triées, on les transforme en une image.

Imaginez que vous prenez le mouvement d'une personne qui danse pendant 10 secondes.
Au lieu de garder une liste de chiffres, vous créez une image géante où :
- La couleur Rouge représente le mouvement gauche-droite (axe X).
- La couleur Verte représente le mouvement haut-bas (axe Y).
- La couleur Bleue représente le mouvement avant-arrière (axe Z).
Vous empilez ensuite ces couleurs dans le temps, comme si vous étaliez une bande dessinée sur un seul grand tableau.

Résultat : Un squelette qui bouge devient une image statique (un peu comme une photo floue ou une œuvre d'art abstraite) que n'importe quel ordinateur peut "voir".

3. L'Apprentissage Rapide

Maintenant, on peut donner cette "image de squelette" à l'Expert Visuel (le Grand Expert formé sur des milliards de photos).

Comme l'image ressemble à une photo normale, l'Expert Visuel comprend tout de suite : "Ah, je vois des formes, des textures, des mouvements !"
Il utilise tout ce qu'il a appris sur les photos réelles pour comprendre le mouvement du squelette, sans avoir besoin d'être réentraîné de zéro.

C'est comme si vous utilisiez un chef étoilé (l'Expert Visuel) pour cuisiner un plat exotique (le squelette). Au lieu de lui apprendre à cuisiner depuis la base, vous lui donnez les ingrédients déjà préparés sous une forme qu'il connaît (l'image), et il utilise son expertise pour créer un plat délicieux.

Pourquoi c'est génial ?

On économise du temps et de l'argent : On n'a pas besoin de créer de nouveaux modèles complexes pour les squelettes. On réutilise ceux qui existent déjà pour les images.
C'est universel : Que le squelette ait 13 points ou 25 points, le "traducteur" S2I s'en fiche. Il transforme tout en une image standard. C'est comme si vous pouviez lire un livre écrit en chinois, en espagnol ou en arabe, car le traducteur le transforme tous en français avant de vous le donner.
Des résultats incroyables : Les tests montrent que cette méthode fonctionne mieux que les anciennes méthodes, même quand on essaie d'appliquer ce qu'on a appris sur un jeu de données (ex: des gens dans un studio) à un autre jeu de données très différent (ex: des gens dans leur salon).

En résumé

Les chercheurs ont dit : "Pourquoi essayer d'enseigner à un ordinateur à comprendre les squelettes avec des maths compliquées, alors qu'on peut simplement transformer ces squelettes en images et utiliser les super-pouvoirs de la reconnaissance d'images ?"

C'est une idée simple mais brillante : transformer le mouvement en peinture pour que l'intelligence artificielle puisse enfin le comprendre facilement.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de vision pré-entraînés à grande échelle (comme les Vision Transformers - ViT, les Auto-encodeurs Masqués - MAE, et les modèles de diffusion) ont démontré des capacités exceptionnelles dans l'analyse d'images et de vidéos. Cependant, leur application directe aux données de squelettes humains 3D reste un défi majeur pour plusieurs raisons :

Hétérogénéité des formats de données : Les données squelettiques varient considérablement d'un jeu de données à l'autre (nombre de joints différent, définitions des articulations, systèmes de coordonnées). Les méthodes existantes sont souvent conçues pour un format spécifique (homogène), ce qui limite leur évolutivité et leur capacité de généralisation.
Incompatibilité structurelle : Les modèles de vision attendent des entrées denses (images 2D), tandis que les squelettes sont des données sparses (15 à 30 joints par image) avec des relations sémantiques articulées.
Pénurie de données annotées : Contrairement aux images, les grands ensembles de données de squelettes annotés sont rares, rendant l'entraînement de modèles spécifiques difficile sans techniques d'apprentissage auto-supervisé avancées.
Intégration multimodale : Il est difficile d'intégrer les données squelettiques dans des pipelines multimodaux (RGB + Squelette) sans ajouter de branches de modèles complexes.

2. Méthodologie : Encodage Squelette-à-Image (S2I)

L'approche proposée, nommée Skeleton-to-Image Encoding (S2I), vise à combler le fossé entre les données squelettiques et les modèles de vision pré-entraînés en transformant les séquences de squelettes en représentations "de type image".

A. Le processus d'encodage S2I

Le pipeline transforme une séquence de coordonnées 3D $(x, y, z)$ pour $T$ images et $J$ joints en une image 2D standardisée ($224 \times 224$) :

Partitionnement sémantique : Le squelette humain est divisé en cinq parties sémantiques cohérentes : le tronc (spine), le bras gauche, le bras droit, la jambe gauche et la jambe droite.
Réorganisation des joints :
- Les parties sont ordonnées selon une séquence corporelle fixe.
- À l'intérieur de chaque partie, les joints sont triés selon une logique "de haut en bas" (par exemple : épaule $\to$ coude $\to$ poignet $\to$ main).
Mappage des canaux : Les coordonnées 3D $(x, y, z)$ de chaque joint sont directement mappées sur les canaux de couleur RGB d'une image.
Empilement temporel : Les positions 3D de tous les joints sur $T$ images sont empilées pour former une carte de caractéristiques spatio-temporelle.
Redimensionnement : La représentation résultante est interpolée (linéairement) pour atteindre la taille d'entrée standard des modèles de vision (ex: $224 \times 224$).

B. Apprentissage et Modèles Utilisés

Une fois converties en "images", les données squelettiques peuvent être traitées par des modèles de vision pré-entraînés sur ImageNet :

Modèles de base : Les auteurs utilisent MAE (Masked Autoencoders) et DiffMAE (basé sur la diffusion) comme backbones.
Stratégie d'entraînement :
- Phase 1 (Pré-entraînement auto-supervisé) : Application de masquage (Random Masking, Joint Masking, Temporal Masking) sur les "images squelettes". Le modèle apprend à reconstruire les parties masquées (pixels ou bruit) en utilisant les poids pré-entraînés sur ImageNet comme initialisation.
- Phase 2 (Tâche en aval) : Fine-tuning ou "Linear Probing" pour la reconnaissance d'actions.

C. Stratégies de Masquage

Pour optimiser l'apprentissage sur la structure squelettique, plusieurs stratégies de masquage sont évaluées :

Masquage aléatoire (Random) : Standard pour les images.
Masquage de joints (Joint) : Masque des joints spécifiques pour tester la compréhension de la structure articulaire.
Masquage temporel (Temporal) : Masque des trames complètes pour forcer l'apprentissage des dynamiques de mouvement.
Résultat : Le masquage aléatoire à 75% s'est avéré le plus performant.

3. Contributions Clés

Nouveau Pipeline S2I : Une méthode simple mais efficace pour reformater les données squelettiques 3D en entrées compatibles avec les modèles de vision pré-entraînés, sans nécessiter de modifications architecturales spécifiques aux squelettes.
Apprentissage Universel et Format-Agnostique : Contrairement aux méthodes précédentes qui nécessitent un alignement manuel des joints (downsampling), S2I permet de traiter nativement des données hétérogènes (ex: 25 joints, 20 joints, 13 joints) dans un même cadre d'apprentissage.
Transfert de Connaissance Visuelle : Démonstration que les connaissances riches acquises lors du pré-entraînement sur des milliards d'images peuvent être transférées efficacement au domaine des squelettes via S2I.
Stratégie de Pré-entraînement Universel : Capacité à pré-entraîner un seul modèle sur plusieurs jeux de données hétérogènes simultanément, améliorant la généralisation.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq jeux de données de référence : NTU-60, NTU-120, PKU-MMD, NW-UCLA et Toyota Smarthome.

Performance en Apprentissage Auto-Supervisé :
- Sur NTU-60, la méthode S2I (avec DiffMAE) atteint 83,1% en "Linear Probe" et 91,0% en "Fine-tuning", surpassant ou égalant les méthodes spécialisées récentes (comme SkeletonMAE ou 3s-ActCLR) sans utiliser d'architecture dédiée aux squelettes.
- L'utilisation des poids pré-entraînés sur ImageNet apporte un gain significatif (ex: +20% par rapport à un entraînement from scratch).
Apprentissage Semi-Supervisé :
- Avec seulement 1% de données étiquetées, S2I atteint 71,4% (contre ~55% pour les méthodes de l'état de l'art), démontrant une forte efficacité en régime de faible étiquetage.
Transfert Inter-Formats (Cross-Format) :
- Le modèle pré-entraîné sur NTU-60 (25 joints) est transféré directement sur Toyota (13 joints) et NW-UCLA (20 joints) sans aucun ajustement de joints.
- Résultats : 53,8% sur Toyota (CV1) et 94,2% sur NW-UCLA, surpassant nettement les méthodes existantes qui nécessitent un alignement préalable des joints.
Pré-entraînement Universel :
- L'entraînement conjoint sur tous les jeux de données (NTU, PKU, Toyota, NW-UCLA) améliore les performances sur tous les jeux de données cibles, prouvant la capacité du modèle à apprendre une représentation squelettique universelle.

5. Signification et Impact

Ce travail marque un tournant dans la recherche sur la reconnaissance d'actions squelettiques :

Démocratisation des modèles de vision : Il permet d'utiliser les modèles de vision les plus puissants (ViT, Diffusion) pour des tâches de squelettes, évitant la nécessité de concevoir des architectures complexes spécifiques (GCN, RNN) pour chaque nouveau jeu de données.
Robustesse et Généralisation : La méthode résout le problème de l'hétérogénéité des données, permettant un apprentissage unifié sur des sources de données disparates, ce qui est crucial pour le déploiement dans des scénarios réels où les capteurs varient.
Futur Multimodal : En normalisant les squelettes en images, S2I facilite l'intégration future avec d'autres modalités (vidéos RGB, profondeur) dans des modèles multimodaux unifiés, ouvrant la voie à des systèmes de compréhension d'actions plus robustes et interprétables.

En résumé, S2I transforme le problème de la représentation squelettique en un problème de vision par ordinateur standard, exploitant la puissance des modèles pré-entraînés pour atteindre des performances de pointe tout en simplifiant considérablement le pipeline d'apprentissage.