SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un computer a capire la Lingua dei Segni. È un compito difficile, un po' come cercare di insegnare a un cane a capire il francese: richiede molto tempo, pazienza e, soprattutto, un maestro umano che spieghi ogni singola parola.

Il problema è che per la Lingua dei Segni, i "maestri" (gli annotatori umani) sono rari, costosi e lenti. Annotare un'ora di video può richiedere 100 ore di lavoro umano! Di conseguenza, i computer hanno pochissimi esempi da studiare.

Gli scienziati hanno provato a usare l'apprendimento non supervisionato: invece di far studiare al computer solo le parole "corrette", gli fanno guardare migliaia di video senza etichette, sperando che impari da solo. Ma qui nasce un nuovo problema, che questo paper risolve in modo geniale.

Ecco come funziona la loro soluzione, spiegata con delle metafore semplici:

1. Il Problema: Il Rumore di Fondo

Immagina di guardare un video di una persona che fa un segno.

Il momento importante: C'è un secondo preciso in cui la mano fa il gesto vero e proprio (es. "Ciao").
Il rumore: Prima di quel gesto, la persona si sistema i capelli, guarda in camera, si aggiusta la maglietta. Dopo il gesto, si rilassa e torna alla posizione di partenza.

I vecchi metodi di intelligenza artificiale guardavano tutto il video allo stesso modo. Per loro, sistemarsi i capelli era importante quanto fare il gesto "Ciao". Inoltre, due segni diversi potrebbero avere movimenti simili (es. entrambe le mani si muovono), confondendo il computer.
È come se un musicista cercasse di imparare una canzone ascoltando anche i rumori di tosse del pubblico e i passi del direttore d'orchestra: il risultato sarebbe una melodia confusa.

2. La Soluzione: "SSL-SLR" (Il Filtro Magico)

Gli autori propongono un nuovo sistema chiamato SSL-SLR. Immaginalo come un filtro intelligente che fa due cose principali:

A. Il "Filtro del Segno" (L'Augmentation)

Invece di mostrare al computer l'intero video, questo sistema impara a cancellare le parti inutili.

L'analogia: Immagina di avere un video e di usare un pennarello magico per oscurare i primi secondi (dove la persona si prepara) e gli ultimi secondi (dove si rilassa).
Come funziona: Il sistema analizza il video e scopre che, per la maggior parte dei segni, la parte "magica" è quella centrale (circa dal 30% al 75% del video). Quindi, quando allena il computer, gli mostra solo quella parte centrale, ignorando il "rumore" iniziale e finale. In questo modo, il computer impara a concentrarsi solo su ciò che conta davvero.

B. Il "Triangolo dell'Amicizia" (L'Apprendimento)

Per insegnare al computer senza etichette, usano un metodo chiamato "apprendimento contrastivo".

Il vecchio metodo: Prendi un video, lo modifichi un po' (es. cambia i colori) e dici al computer: "Questi due sono la stessa cosa". Poi prendi un video diverso e dici: "Questi sono diversi". Ma spesso i video diversi si assomigliano troppo (movimenti simili), creando confusione.
Il nuovo metodo (SL-FPN): Immagina di avere tre amici:
1. Il Video Originale (la persona che fa il segno).
2. La Versione Modificata A (con il "filtro" che ha tolto il rumore).
3. La Versione Modificata B (un'altra versione filtrata).

Il sistema dice al computer: "Guarda, la versione A e la versione B sono la stessa cosa, e anche l'Originale è la stessa cosa! Mettetevi tutti vicini nella vostra 'mente' digitale".
Non serve un "nemico" (un video diverso) per farli avvicinare; basta farli avvicinare tra loro. Questo rende l'apprendimento più stabile e preciso, evitando che il computer si confonda o smetta di imparare (un problema chiamato "collasso").

3. I Risultati: Perché è un Successo?

Hanno testato questo sistema su diverse lingue dei segni (franco-belga, americana, greca, argentina).

Risultato: Il computer ha imparato molto meglio. È riuscito a riconoscere i segni con una precisione superiore rispetto ai metodi precedenti, anche quando gli venivano dati pochissimi esempi etichettati.
Il vantaggio: Funziona anche se provi a insegnargli una lingua dei segni diversa da quella su cui l'hai addestrato (trasferibilità). È come se avesse imparato il concetto di "gesto" e potesse applicarlo a nuove situazioni.

In Sintesi

Questo paper ci dice: "Non insegnare al computer tutto il video, insegnagli solo il cuore del gesto."

Hanno creato un sistema che:

Pulisce il video togliendo i movimenti inutili (preparazione e rilassamento).
Confronta solo le parti importanti per capire il significato.
Risparmia tempo e denaro perché non ha bisogno di migliaia di ore di annotazione umana per funzionare bene.

È un passo avanti enorme per rendere la tecnologia accessibile a chi usa la Lingua dei Segni, rendendo i computer più "attenti" e meno distratti dal rumore di fondo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il riconoscimento della lingua dei segni (SLR) è un compito di machine learning complesso che mira a identificare i segni nei video. La sfida principale risiede nella scarsità di dati annotati: l'annotazione richiede competenze linguistiche specializzate, è costosa e richiede molto tempo (es. 100 ore di lavoro per annotare 1 ora di video).

Per ovviare a questo, sono stati adottati metodi di apprendimento non supervisionato, in particolare l'apprendimento contrastivo. Tuttavia, l'applicazione standard di questi metodi alla SLR presenta due limiti fondamentali:

Trattamento uniforme del video: I metodi contrastivi trattano tutte le parti del video allo stesso modo. In realtà, nei video della lingua dei segni, parti come i movimenti di riposizionamento (aggiustamenti della mano dopo un segno) e la coarticolazione (movimenti transitori tra i segni) non sono informativi per il riconoscimento, ma vengono appresi come se lo fossero.
Somiglianza dei "coppie negative": Segni diversi possono condividere movimenti simili (es. forme di mano o traiettorie comuni). Questo rende le coppie negative (istanze diverse) altamente simili, complicando la discriminazione e portando a spazi latenti poco discriminativi.

Di conseguenza, i modelli esistenti spesso apprendono caratteristiche non discriminative, ottenendo risultati scadenti nelle attività a valle (downstream tasks).

2. Metodologia Proposta: SSL-SLR

Gli autori propongono un nuovo framework di apprendimento auto-supervisionato chiamato SSL-SLR, composto da due componenti chiave che lavorano in sinergia:

A. Un nuovo approccio auto-supervisionato: SL-FPN (Self-Learning with Free Negative Pairs)

SL-FPN è progettato per eliminare la necessità di coppie negative esplicite, encoder aggiuntivi o meccanismi di clustering, riducendo la complessità del modello.

Architettura: Utilizza un singolo encoder, un head di proiezione e un predictor, ma elabora tre rami di input:
1. Una versione aumentata del segnale ( $x_1$ ).
2. Un'altra versione aumentata del segnale ( $x_2$ ).
3. L'istanza originale ( $x$ ) non aumentata.
Obiettivo: Minimizzare la distanza tra le rappresentazioni delle coppie positive e l'istanza originale.
Funzione di Perdita: La perdita totale ( $L$ $L$ ) è la somma di tre termini MSE (Mean Squared Error):
1. $L_1$ : Distanza tra le due versioni aumentate ( $z_1$ e $z_2$ ).
2. $L_2$ : Distanza tra una versione aumentata e l'istanza originale ( $z$ e $z_2$ ).
3. $L_3$ : Distanza tra l'output del predictor e la rappresentazione dell'altra versione aumentata (utilizzando un operatore stop-gradient per rompere la simmetria e prevenire il collasso delle rappresentazioni).
Vantaggio: Sfruttare l'istanza originale aiuta il modello a mantenere la coerenza semantica e a evitare il collasso delle rappresentazioni senza bisogno di coppie negative.

B. Una nuova tecnica di Data Augmentation

Questa componente affronta il problema dei movimenti non informativi (riposizionamento, coarticolazione).

Concetto: Invece di applicare aumentazioni a tutto il video, l'obiettivo è degradare selettivamente le parti non rilevanti del segno, costringendo il modello a focalizzarsi sulle parti discriminative.
Identificazione dei Frame Rilevanti: Poiché non esiste un metodo standard per identificare i frame chiave nei video, gli autori propongono un algoritmo empirico basato su un approccio contrastivo con backbone Transformer.
- L'algoritmo permuta progressivamente i frame iniziali ( $k_s$ ) e finali ( $k_e$ ) di una sequenza.
- Se la permutazione di certi frame non degrada le prestazioni del modello (valutate tramite linear evaluation), significa che quei frame non sono critici per l'identificazione.
- Vengono identificati i punti di confine ottimali $k^*_s$ (dove l'informazione diventa rilevante) e $k^*_e$ (dove smette di esserlo).
Applicazione: Durante l'addestramento, le aumentazioni (permutazioni temporali) vengono applicate solo ai frame iniziali e finali (non rilevanti), preservando la parte centrale del segno che contiene l'informazione discriminativa.

3. Contributi Chiave

Framework SSL-SLR: Un nuovo framework che combina un'architettura auto-supervisionata innovativa (SL-FPN) con una strategia di augmentation specifica per la SLR.
SL-FPN: Un metodo che utilizza l'istanza originale insieme alle coppie positive, eliminando la necessità di coppie negative e di encoder multipli complessi, mantenendo alte prestazioni.
Augmentation Selettiva: Un metodo per identificare e degradare automaticamente le parti non informative dei video della lingua dei segni, migliorando la capacità del modello di focalizzarsi sui movimenti essenziali.
Validazione Estensiva: Dimostrazione che l'approccio supera i metodi contrastivi e self-supervised esistenti (SimCLR, MoCo, SimSiam, BYOL) su diversi dataset e scenari (valutazione lineare, apprendimento semi-supervisionato, trasferimento tra lingue).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su cinque dataset principali: LSFB (Belga Francese), LSA (Argentina), GSL (Grecia), ASL Citizen e WLASL (Americana).

Valutazione Lineare: SSL-SLR ha mostrato guadagni significativi di accuratezza rispetto ai metodi baselines. Ad esempio, su LSFB (500 classi), l'accuratezza è passata dal ~15% (SimCLR/SimSiam) al 23.73% con SSL-SLR.
Trasferibilità Cross-Lingua: Il modello pre-addestrato su una lingua (es. LSFB) e testato su un'altra (es. LSA o GSL) ha ottenuto risultati superiori rispetto ad altri metodi, indicando rappresentazioni più robuste e generalizzabili.
Apprendimento Semi-Supervisionato: Utilizzando solo il 30% dei dati annotati per il fine-tuning, SSL-SLR ha mantenuto prestazioni superiori, dimostrando la sua efficacia in scenari con dati etichettati scarsi.
Confronto con lo State-of-the-Art (SOTA):
- Su LSA: 99.07% (vs 98.25% del SOTA precedente).
- Su GSL: 96.73% (vs 96.25% del SOTA precedente).
- Su LSFB: 56.81% (vs 54.4% del SOTA precedente).
- Su WLASL-100: 77.95% (Top-1) e 93.02% (Top-5), superando diversi modelli basati su BERT e SignCLIP.
Qualità delle Rappresentazioni: L'analisi qualitativa (visualizzazione 2D e inerzia intra-classe) conferma che SSL-SLR produce spazi latenti più compatti e meglio separati rispetto agli altri metodi.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti significativo per il riconoscimento della lingua dei segni, affrontando direttamente il collo di bottiglia della scarsità di dati annotati.

Efficienza: Dimostra che è possibile ottenere prestazioni SOTA senza pre-addestrare modelli su centinaia di migliaia di video provenienti da fonti diverse (come fatto da SignCLIP), ma utilizzando dati non annotati della stessa lingua target.
Robustezza: La capacità di ignorare i movimenti non rilevanti rende il modello più robusto alle variazioni naturali nella produzione dei segni.
Futuro: Sebbene il metodo per determinare i confini dei frame sia attualmente empirico, il framework offre una base solida per estendere l'apprendimento auto-supervisionato alla SLR continua e per sviluppare metodi più automatizzati per l'identificazione delle parti critiche del segnale.

In sintesi, SSL-SLR offre una soluzione pratica ed efficace per addestrare modelli di riconoscimento della lingua dei segni con meno dipendenza dall'annotazione manuale, migliorando al contempo la qualità delle rappresentazioni apprese.