E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Each language version is independently generated for its own context, not a direct translation.

🦴 E2E-GNet : Le "Traducteur de Mouvements" pour les Ordinateurs

Imaginez que vous essayez d'enseigner à un ordinateur à reconnaître ce que fait une personne : est-ce qu'elle danse, est-ce qu'elle tombe, ou est-ce qu'elle fait de la rééducation après un accident ?

Jusqu'à présent, les ordinateurs regardaient les vidéos comme nous : en analysant les couleurs, les ombres et les vêtements. Mais si la lumière change, si le fond est encombré ou si la personne porte un manteau, l'ordinateur se perd.

Pour résoudre ce problème, les chercheurs utilisent des squelettes (des points reliés par des lignes qui représentent les articulations). C'est comme si on enlevait la "peau" et les "vêtements" pour ne garder que l'essentiel du mouvement.

Cependant, il y a un gros problème : les mouvements humains ne sont pas des lignes droites. Ils sont courbes, complexes et tournent dans tous les sens. Si on essaie de les forcer dans une grille rigide (comme un tableau Excel), on déforme l'information, un peu comme essayer de plier une carte du monde plate pour qu'elle rentre dans une boîte carrée : les distances et les formes sont faussées.

C'est là qu'intervient E2E-GNet.

🌍 L'Analogie de la Carte et du Globe

Pour comprendre comment E2E-GNet fonctionne, imaginons que le mouvement d'une personne est une montagne.

Le problème des anciennes méthodes :
Les anciens ordinateurs essayaient de dessiner cette montagne sur une feuille de papier plate. Pour y arriver, ils devaient étirer et écraser la montagne. Résultat : les sommets semblaient trop proches ou trop loin les uns des autres. C'est ce qu'on appelle la "distorsion". L'ordinateur voyait une fausse image du mouvement.
La solution E2E-GNet (La Géométrie) :
E2E-GNet, lui, ne met pas la montagne sur une feuille plate tout de suite. Il la place d'abord sur un globe terrestre (une sphère). Sur un globe, les distances et les formes sont parfaites, même si la route est courbe.

🛠️ Comment ça marche ? (Les deux étapes magiques)

Le réseau neuronal E2E-GNet utilise deux outils principaux, comme un chef cuisinier qui prépare un plat délicat :

1. Le "Miroir Magique" (La Couche de Transformation Géométrique)

Imaginez que vous tenez un mannequin articulé. Avant de l'analyser, vous le tournez, vous le penchez pour le mettre dans la position la plus "naturelle" possible par rapport à un point de référence.

Ce que fait le réseau : Il apprend à tourner et à aligner chaque instant du mouvement pour qu'il soit parfaitement optimisé sur le globe. Il ne se contente pas de regarder le mouvement tel quel ; il le "réajuste" pour qu'il soit le plus clair possible.

2. Le "Compresseur Intelligent" (La Couche de Minimisation de Distorsion)

C'est l'étape la plus brillante. Une fois le mannequin bien aligné sur le globe, il faut le mettre sur une feuille de papier (l'espace linéaire) pour que l'ordinateur puisse le calculer vite.

Le problème : Quand on passe du globe à la feuille, tout s'étire un peu (comme une carte de l'océan Pacifique qui semble énorme sur une carte plate).
La solution du réseau : E2E-GNet a un petit "compresseur" intelligent. Il sait exactement où et combien l'image va s'étirer. Il applique une correction automatique (un petit "pincement") pour que la distance entre deux points sur la feuille corresponde exactement à la distance réelle sur le globe.
Résultat : L'ordinateur voit le mouvement tel qu'il est vraiment, sans les déformations habituelles.

🏆 Pourquoi c'est génial ?

Les chercheurs ont testé E2E-GNet sur cinq grands ensembles de données, allant de la reconnaissance de la danse à l'analyse de la rééducation pour des patients âgés ou malades (comme la maladie d'Alzheimer).

Précision : Il est plus précis que les meilleurs systèmes actuels. Il arrive à distinguer un mouvement subtil d'un autre, même si la personne bouge lentement ou de manière rigide.
Efficacité : C'est comme un moteur de voiture de course qui consomme moins d'essence. Il fait le travail mieux, mais avec moins de puissance de calcul. C'est rapide et léger.
Polyvalence : Que ce soit pour dire si un patient fait bien ses exercices de kiné ou pour détecter une anomalie dans la marche d'une personne âgée, le système s'adapte parfaitement.

🎯 En résumé

E2E-GNet, c'est comme donner à un ordinateur des lunettes de réalité augmentée géométriques.
Au lieu de regarder un mouvement de travers et de le déformer, il le voit dans sa forme pure, le tourne pour le comprendre, et le "lisse" intelligemment pour ne perdre aucune information.

C'est une avancée majeure pour la sécurité (surveillance), la santé (rééducation) et la robotique, car il permet aux machines de comprendre le langage du corps humain avec une précision et une douceur inégalées.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance de l'action humaine basée sur les squelettes (skeleton-based) est une tâche centrale en vision par ordinateur, avec des applications allant de la surveillance vidéo à l'analyse médicale (rééducation, maladies neurodégénératives). Bien que les approches basées sur les graphes (GCN) et les transformateurs aient dominé le domaine, elles traitent souvent les données de squelettes comme des vecteurs dans un espace euclidien.

Cependant, les données de squelettes résident naturellement dans un espace non-euclidien (une variété riemannienne), car elles sont invariantes par translation et échelle, et soumises à des contraintes de rotation. Les méthodes géométriques existantes (basées sur l'espace de forme de Kendall ou les groupes de Lie) souffrent de deux limitations majeures :

Absence de formation "End-to-End" : Elles ne permettent pas d'optimiser conjointement les composants géométriques et les réseaux de neurones profonds sur la variété.
Distorsions de projection : La projection des données de la variété non-linéaire vers un espace tangent linéaire (nécessaire pour l'apprentissage profond standard) introduit des distorsions géométriques significatives, dégradant la fidélité des représentations et la performance du modèle.

2. Méthodologie : E2E-GNet

Les auteurs proposent E2E-GNet, un réseau de neurones profond géométrique conçu pour opérer de manière end-to-end sur l'espace de forme de Kendall. L'architecture se compose des étapes suivantes :

A. Modélisation sur l'espace pré-forme (Pre-shape Space)

Les séquences de mouvements de squelettes sont d'abord normalisées pour éliminer les variations de translation et d'échelle, les projetant sur une sphère unité dans l'espace pré-forme de Kendall.

B. Couche de Transformation Géométrique (GTL - Geometric Transformation Layer)

Cette couche est le cœur de l'approche pour gérer la non-linéarité. Elle opère en deux étapes :

Optimisation sur SO(3) : Pour chaque trame du squelette, le réseau apprend des paramètres de rotation ( $\theta_f$ ) pour générer une matrice de rotation $R_f \in SO(3)$ . Cela aligne les squelettes pour minimiser la variabilité rotationnelle, les projetant sur l'espace de forme de Kendall (quotient de l'espace pré-forme par les rotations).
Projection par Logarithme Riemannien : Une fonction d'activation non-linéaire différentiable (la carte logarithme) projette les séquences transformées de la variété sphérique vers un espace tangent linéaire. Cela permet d'utiliser des opérations standards (convolutions, LSTM) tout en respectant la géométrie sous-jacente.

C. Couche de Minimisation de la Distorsion (DML - Distortion Minimization Layer)

La projection logarithme introduit deux types de distorsions :

Distorsion globale : L'échelle des vecteurs tangents est étirée par le facteur $\theta_d / \sin(\theta_d)$ , surestimant la distance géodésique réelle.
Distorsion par paires : Les distances relatives entre les points projetés sont déformées.

Pour corriger cela, la DML introduit un paramètre positif apprenable $\alpha$ (initialisé dans $(-1, 1)$ et contraint à être positif via exponentiation d'Euler). Ce paramètre applique une mise à l'échelle uniforme aux vecteurs tangents ( $\alpha \cdot Z_f$ ).

Interprétation géométrique : Cela correspond à réévaluer la géodésique à un paramètre $\alpha < 1$ , ramenant les points plus près du point de référence où l'approximation linéaire est meilleure, tout en préservant la direction et la courbure intrinsèque.

D. Extraction de Caractéristiques et Classification

Les séquences projetées et corrigées sont traitées par des couches de convolution 1D (Conv1D), un MaxPooling et un module LSTM pour extraire les caractéristiques spatio-temporelles, suivies de couches fully connected pour la classification.

3. Contributions Clés

Première approche End-to-End sur Variété : E2E-GNet est le premier réseau à optimiser conjointement la transformation géométrique (sur la variété) et l'apprentissage profond, permettant une adaptation directe des données non-euclidiennes.
Couche DML innovante : Introduction d'une couche apprenable qui réduit explicitement les distorsions induites par la projection logarithme, améliorant la fidélité de la représentation sans complexité computationnelle excessive.
Flexibilité des variantes : Le modèle propose plusieurs variantes (rigide/non-rigide, contraint/non-contraint, homogène/hétérogène) adaptées aux spécificités des données (actions dynamiques vs mouvements de rééducation contraints).
Efficacité et Performance : Le modèle atteint des performances supérieures avec un coût computationnel inférieur à celui des méthodes de l'état de l'art (SOTA).

4. Résultats Expérimentaux

Le modèle a été évalué sur cinq jeux de données couvrant trois domaines :

Reconnaissance d'actions : NTU RGB+D 60 et NTU RGB+D 120.
Analyse de maladies : EHE (Alzheimer).
Rééducation : KIMORE et UI-PRMD.

Performance :

Sur NTU-120 (le défi le plus important), E2E-GNet dépasse les méthodes SOTA (y compris les transformateurs et GCN avancés) de 4,2 % (protocole X-Sub) et 0,9 % (X-Set).
Sur les jeux de données de rééducation et de maladie, il surpasse les méthodes SOTA de 0,76 % à 2,79 %.
Ablation : L'ajout de la GTL améliore significativement les performances par rapport à une base (ex: +6,7 % sur NTU-120). L'ajout de la DML apporte un gain supplémentaire crucial (ex: +8,13 % sur UI-PRMD), prouvant son efficacité à corriger les distorsions.
Comparaison avec le Transport Parallèle : Contrairement aux méthodes classiques de transport parallèle (Pole Ladder) qui échouent sur les données de patients (mouvements rigides et bruités), la DML apprenable s'adapte et améliore systématiquement les résultats.

Efficacité Computationnelle :

E2E-GNet maintient un nombre de paramètres et de FLOPs très faible (ex: 0,93 M de paramètres, 0,01 GFLOPs sur NTU), comparable aux modèles les plus légers mais avec une précision bien supérieure.
Temps d'inférence très rapide (environ 0,0025 à 0,004 seconde par échantillon).

5. Signification et Conclusion

Ce travail démontre que l'intégration rigoureuse de la géométrie riemannienne dans les réseaux de neurones profonds, couplée à des mécanismes de correction de distorsion apprenables, permet de dépasser les limites des approches purement euclidiennes ou des méthodes géométriques non optimisées.

E2E-GNet établit un nouvel état de l'art pour la reconnaissance de mouvement basée sur les squelettes, offrant une solution robuste, précise et légère. Sa capacité à s'adapter aussi bien aux mouvements dynamiques (actions) qu'aux mouvements contraints et pathologiques (rééducation, Alzheimer) en fait un outil polyvalent pour des applications critiques en santé et en interaction humain-robot. Le code est disponible publiquement, favorisant la reproductibilité et l'adoption par la communauté.