SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Each language version is independently generated for its own context, not a direct translation.

🇫🇷 Le Défi : Apprendre à lire les mains sans dictionnaire

Imaginez que vous voulez apprendre à comprendre la langue des signes. Le problème, c'est que pour entraîner un ordinateur à le faire, il faut des milliers d'heures de vidéos annotées par des experts. C'est comme si vous deviez engager un professeur de langue pour écrire manuellement chaque mot de chaque phrase d'un livre entier. C'est long, cher et épuisant.

De plus, les vidéos de signes sont pleines de "bruit". Avant de faire le signe "Pomme", une personne ajuste sa caméra, bouge ses mains, puis fait le signe, et enfin remet ses mains en position de repos. Pour un humain, on ignore ces mouvements inutiles. Pour un ordinateur classique, c'est du bruit qui l'embrouille.

💡 La Solution : SSL-SLR (L'Intelligence Artificielle "Autodidacte")

Les auteurs de ce papier proposent une nouvelle méthode appelée SSL-SLR. C'est un peu comme donner un livre de grammaire à un élève qui n'a pas de professeur, mais qui est très intelligent. Au lieu de lui donner les réponses (les étiquettes), on lui donne des exercices pour qu'il apprenne par lui-même.

Voici les deux ingrédients magiques de leur recette :

1. Le Miroir Magique (L'approche auto-supervisée)

Imaginez que vous regardez votre reflet dans un miroir. Si vous faites une grimace, votre reflet la fait aussi.

L'ancien problème : Les méthodes classiques (comme le "Contrastive Learning") comparent deux vidéos : une vidéo originale et une version modifiée (par exemple, tournée ou avec des couleurs différentes). Elles disent : "Ces deux-là sont pareils, rapprochez-les !". Mais elles comparent aussi la vidéo originale à toutes les autres vidéos de la base de données pour dire "Celles-là sont différentes, éloignez-les !".
Le problème des signes : Dans la langue des signes, deux signes différents peuvent avoir des mouvements de mains très similaires (comme "Manger" et "Boire"). Si l'ordinateur essaie de les éloigner trop fort, il se trompe et les confond.
La solution SSL-SLR : Au lieu de comparer avec tout le monde, la méthode utilise trois branches :
1. La vidéo originale.
2. Une version modifiée (augmentée).
3. Une autre version modifiée.
  L'objectif est simple : dire à l'ordinateur "Peu importe comment on modifie la vidéo, le cœur du signe doit rester le même". Et surtout, on utilise la vidéo originale comme point de référence constant. C'est comme si on disait à l'élève : "Regarde ta photo de famille (l'originale) et compare-la avec des photos floues ou recadrées. Assure-toi que tu reconnais toujours la même personne."

2. Le Couteau Suisse des Vidéos (La nouvelle augmentation)

C'est ici que ça devient vraiment clever.

L'analogie : Imaginez que vous essayez d'identifier un ami dans une vidéo de vacances.
- Au début de la vidéo, il ajuste son chapeau (inutile).
- Au milieu, il fait un grand sourire et une danse (le signe important !).
- À la fin, il s'éloigne et éteint la caméra (inutile).
L'erreur des anciens : Les méthodes précédentes appliquaient des filtres (flou, rotation) sur toute la vidéo, y compris sur le chapeau et l'éteignage de la caméra. L'ordinateur apprenait à reconnaître le chapeau au lieu du sourire !
La méthode SSL-SLR : Les chercheurs ont créé un algorithme qui agit comme un monteur vidéo intelligent. Il analyse la vidéo pour trouver exactement où commence et où finit le "vrai" signe (la partie centrale).
- Il dit : "Ok, on va flouter et bousculer les 30% du début et les 25% de la fin (les mouvements inutiles)."
- "Mais on va garder la partie du milieu (le signe) bien nette et intacte."
- Ainsi, l'ordinateur est forcé de se concentrer uniquement sur ce qui compte vraiment.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à cette combinaison (le miroir qui utilise la photo originale + le montage qui coupe le bruit), les résultats sont impressionnants :

Moins de données, plus de performance : Même avec très peu de vidéos annotées (30% seulement), la méthode fonctionne mieux que les géants actuels. C'est comme apprendre une langue en 3 mois au lieu de 3 ans.
Transfert de langue : Ce qui est appris sur la langue des signes française (LSFB) peut être transféré pour comprendre la langue des signes grecque ou argentine beaucoup plus facilement. C'est comme si l'ordinateur apprenait la "grammaire" des signes, pas juste les mots.
Précision : Sur plusieurs tests, cette méthode bat les records précédents (State-of-the-Art), obtenant jusqu'à 99% de précision sur certains jeux de données.

🎯 En résumé

Ce papier propose une façon plus intelligente d'entraîner les ordinateurs à comprendre la langue des signes. Au lieu de leur donner des milliers de réponses toutes faites, on leur apprend à ignorer le bruit (les mouvements inutiles) et à se fier à l'essentiel (le cœur du signe), en utilisant des astuces de comparaison qui évitent les confusions.

C'est un pas de géant pour rendre la technologie plus accessible aux personnes sourdes et malentendantes, sans avoir besoin de dépenser des fortunes en annotation manuelle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance de la langue des signes (SLR) est une tâche d'apprentissage automatique visant à identifier des signes dans des vidéos. Ce domaine fait face à deux défis majeurs :

Pénurie de données annotées : L'annotation manuelle de vidéos de langue des signes est extrêmement coûteuse, chronophage et nécessite une expertise linguistique rare (l'annotation d'une heure de vidéo peut prendre 100 heures).
Limitations des méthodes d'apprentissage contrastif existantes :
- Traitement uniforme : Les méthodes contrastives classiques traitent toutes les parties d'une vidéo de manière égale. Or, dans les vidéos de signes, certaines parties (mouvements de repositionnement, coarticulation, début/fin de séquence) sont non pertinentes pour l'identification du signe, tandis que d'autres sont cruciales.
- Similarité des paires négatives : Différents signes partagent souvent des mouvements similaires (formes de mains, trajectoires), ce qui rend les paires négatives (signes différents) très similaires. Cela crée un espace latent peu discriminant et nuit à la performance des tâches en aval.

2. Méthodologie : Le cadre SSL-SLR

Les auteurs proposent un cadre d'apprentissage auto-supervisé (SSL) nommé SSL-SLR, composé de deux innovations clés conçues pour fonctionner en synergie :

A. Une nouvelle approche auto-supervisée : SL-FPN (Self-Supervised Learning with Free Negative Pairs)

Cette architecture vise à éliminer le besoin de paires négatives explicites, de fonctions de clustering supplémentaires ou d'encodeurs multiples complexes (comme dans BYOL ou SimSiam).

Architecture : Elle utilise un seul encodeur et un prédicteur, mais traite trois branches d'entrée :
1. La version originale de l'instance ( $x$ ).
2. Une première version augmentée ( $x_1$ ).
3. Une seconde version augmentée ( $x_2$ ).
Objectif de perte : Le modèle minimise la distance (MSE) entre les représentations de ces trois branches :
- $L_1$ : Entre les deux versions augmentées ( $x_1, x_2$ ).
- $L_2$ : Entre une version augmentée et l'instance originale ( $x, x_2$ ).
- $L_3$ : Entre la prédiction d'une branche et l'autre branche (avec opérateur stop-gradient pour éviter l'effondrement des représentations).
Avantage : En utilisant l'instance originale en plus des paires positives, la méthode apprend des représentations plus stables et évite l'effondrement (collapse) sans nécessiter de paires négatives complexes.

B. Une nouvelle technique d'augmentation de données

Pour contrer le problème de la pertinence variable des frames, les auteurs proposent une augmentation ciblée qui dégrade uniquement les parties non pertinentes des signes.

Détermination des "frames" pertinentes : L'algorithme identifie empiriquement les limites temporelles ( $k^*_s$ $k_{s}^{*}$ et $k^*_e$ $k_{e}^{*}$ ) où les frames deviennent et cessent d'être discriminantes.
- Il utilise un algorithme contrastif avec un encodeur Transformer (sensible à l'ordre temporel).
- Il applique des permutations temporelles progressives sur le début et la fin de la séquence.
- Si la permutation de certaines frames (début/fin) ne dégrade pas la précision en évaluation linéaire, ces frames sont considérées comme non pertinentes.
Application : L'augmentation consiste à appliquer des perturbations (permutations) uniquement sur les segments non pertinents (début et fin), forçant le modèle à se concentrer sur le cœur discriminant du signe.

3. Contributions Clés

Cadre SL-FPN : Introduction d'une architecture auto-supervisée à trois branches utilisant l'instance originale, éliminant le besoin de paires négatives tout en surpassant les méthodes sans négatifs existantes (BYOL, SimSiam).
Augmentation Spatio-Temporelle Intelligente : Une méthode novatrice pour identifier et dégrader les parties non informatives des vidéos de signes, améliorant la focalisation du modèle sur les mouvements essentiels.
Performance Transférable : Démonstration que les représentations apprises sont transférables entre différentes langues des signes (ex: de LSFB vers GSL ou LSA) avec une efficacité supérieure aux méthodes contrastives classiques.
Réduction de la dépendance aux annotations : Validation de la méthode dans des scénarios semi-supervisés (30% de données annotées) et en apprentissage à partir de zéro, prouvant son utilité face au manque de données étiquetées.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq jeux de données : LSFB (Belgique), LSA (Argentine), GSL (Grèce), ASL Citizen et WLASL (USA).

Évaluation Linéaire : SSL-SLR surpasse systématiquement les méthodes de référence (SimCLR, MoCo v2, SimSiam, BYOL) sur tous les jeux de données.
- Exemple : Sur LSFB, SSL-SLR atteint 23,73 % contre ~15 % pour SimSiam. Sur GSL, il atteint 47,76 % contre ~36 %.
Transfert Inter-langues : Le modèle pré-entraîné sur une langue (ex: LSFB) transfère ses connaissances vers une autre (ex: LSA) avec une précision nettement supérieure (46,41 % vs 35,67 % pour BYOL).
Apprentissage Semi-supervisé : Avec seulement 30 % de données annotées, SSL-SLR maintient une robustesse supérieure (ex: 92,76 % sur LSA vs ~88 % pour les autres).
État de l'art (SOTA) :
- Sur LSA, SSL-SLR atteint 99,07 % (Top-1), battant les meilleurs travaux précédents (98,25 %).
- Sur GSL, il atteint 96,73 %, surpassant les modèles multimodaux récents.
- Sur WLASL-100, il obtient 93,02 % en Top-5, surpassant SignBERT+ et BEST.
Qualité des Représentations : La visualisation 2D (t-SNE) et la mesure de l'inertie intra-classe montrent que SSL-SLR produit des espaces latents plus compacts et mieux séparés que les autres méthodes.
Efficacité Temporelle : Bien que légèrement plus lent que SimSiam (à cause de l'utilisation de l'instance originale), SSL-SLR est plus rapide que BYOL (qui utilise deux encodeurs).

5. Signification et Impact

Ce travail représente une avancée significative pour la reconnaissance de la langue des signes :

Solution au manque de données : Il offre une voie viable pour entraîner des modèles performants sans nécessiter d'énormes quantités de données annotées, en exploitant efficacement les données non étiquetées.
Compréhension sémantique : En apprenant à ignorer les mouvements non pertinents (repositionnement, coarticulation), le modèle se concentre sur l'essence linguistique du signe, améliorant la robustesse et la généralisation.
Simplicité et Efficacité : L'approche évite la complexité des architectures à multiples encodeurs ou des mécanismes de clustering, tout en offrant des performances supérieures.

Perspectives futures : Les auteurs prévoient de développer une méthode non empirique pour déterminer les limites temporelles pertinentes et d'étendre cette approche à la reconnaissance de la langue des signes continue (Continuous SLR), où la gestion des transitions est encore plus critique.