HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

Immagina che il computer abbia bisogno di imparare a "leggere" le emozioni umane e a riconoscere situazioni pericolose guardando i video, proprio come farebbe un essere umano. Il team HSEmotion ha partecipato a una gara mondiale (ABAW-10) per vedere chi era il migliore in questo compito.

Ecco come hanno fatto, spiegato con delle metafore quotidiane:

1. Il Problema: Leggere il pensiero (o quasi)

Guardare un video e capire se una persona è felice, arrabbiata, annoiata o se sta per litigare è difficile per un computer. I video sono pieni di "rumore": la luce cambia, le persone si muovono, a volte il viso è coperto. È come cercare di capire cosa sta pensando un amico mentre cammina in una folla rumorosa con il vento in faccia.

2. La loro soluzione: Il "Sistema Ibrido"

Il team non ha costruito un unico mostro gigante che fa tutto. Hanno creato un sistema intelligente che lavora in due fasi, come un detective esperto che ha un assistente veloce.

A. Riconoscere le Emozioni (Espressione, Valenza, Azioni Muscolari)

Per capire se qualcuno è felice o triste, il loro sistema usa una strategia "Se... allora...":

Il Detective Esperto (Il modello pre-addestrato): Prima di tutto, il sistema guarda il viso e usa un "super-esperto" (un modello chiamato EfficientNet) che ha già studiato milioni di foto. Questo esperto è velocissimo.
- La metafora: Immagina di avere un amico che conosce le emozioni alla perfezione. Se lui ti dice "È chiaramente felice!" con una certezza del 90%, tu gli credi subito e non perdi tempo a pensarci.
L'Assistente Calcolatore (L'MLP): Se l'esperto è incerto (ad esempio, "Forse è arrabbiato, forse è solo stanco"), allora il sistema passa il compito al suo assistente interno. Questo assistente ha studiato specificamente sui video del concorso (AffWild2) ed è molto bravo a capire le sfumature.
- La metafora: Se l'esperto esita, chiami il tuo assistente che ha fatto pratica su casi specifici per dare un parere più preciso.
Il Livellatore di Rumore (Smoothing): A volte, guardando un video, il sistema potrebbe dire "Felice" per un fotogramma e "Triste" per il successivo, solo perché c'è stato un lampo di luce. Per evitare questo, usano una "finestra scorrevole".
- La metafora: È come guardare un film invece di un singolo fotogramma. Se per 3 secondi la persona ride, il sistema dice "Sta ridendo", ignorando quel singolo istante in cui ha sbattuto le palpebre. Questo rende la previsione fluida e naturale.

Risultato: Hanno usato questa logica per tre compiti: capire le espressioni facciali, misurare l'intensità dell'emozione (Valenza/Armonia) e rilevare piccoli movimenti muscolari (come un sopracciglio che si alza).

B. Rilevare la Violenza (Un compito diverso)

Rilevare la violenza in un video è diverso: non basta guardare il viso, bisogna vedere tutto il corpo e l'azione.

Qui hanno usato un approccio diverso: un sistema che guarda l'intera scena (come un guardia del corpo).
Invece di analizzare solo il viso, analizzano il movimento del corpo e le interazioni tra le persone.
Hanno combinato un "occhio" molto potente che vede i dettagli (un modello chiamato ConvNeXt) con un "cervello" che capisce il movimento nel tempo (un TCN o BiLSTM).
La metafora: È come avere una telecamera di sicurezza che non si limita a guardare i volti, ma nota se due persone stanno correndo l'una contro l'altra o se c'è un oggetto pericoloso in mano.

3. Perché hanno vinto (o fatto così bene)?

Il segreto del team HSEmotion non è stato usare l'hardware più costoso o i modelli più complicati, ma l'intelligenza nel processo:

Non reinventare la ruota: Hanno usato modelli che già sapevano riconoscere le emozioni, ma li hanno "aggiustati" per il contesto specifico.
Gestire lo sbilanciamento: Nei video, ci sono molte più persone "neutrali" che persone "arrabbiate". Il loro sistema impara a non ignorare le emozioni rare, proprio come un insegnante che presta attenzione anche agli studenti timidi, non solo a quelli che alzano la mano.
Semplicità ed efficienza: Mentre altri team hanno costruito "cattedrali" di intelligenza artificiale pesantissime, loro hanno costruito un sistema leggero, veloce e preciso, che può funzionare anche su dispositivi meno potenti.

In sintesi

Il team HSEmotion ha dimostrato che per capire le emozioni umane nei video non serve sempre la tecnologia più complessa. Serve un approccio intelligente: ascoltare chi è già esperto, chiedere aiuto quando si è incerti, e non farsi ingannare dal rumore di fondo.

Hanno creato un sistema che è come un bravo osservatore umano: attento, paziente e capace di capire il contesto, pronto a essere usato nel mondo reale per migliorare la sicurezza, l'interazione uomo-computer e il monitoraggio della salute mentale.

Each language version is independently generated for its own context, not a direct translation.

Titolo

HSEmotion Team alla Competizione ABAW-10: Riconoscimento delle Espressioni Facciali, Stima Valenza-Arousal, Rilevamento delle Unità di Azione e Classificazione della Violenza Fine-Grained.

1. Problema e Contesto

Il documento presenta i risultati del team HSEmotion nella 10ª edizione della competizione ABAW (Affective Behavior Analysis in-the-Wild). L'obiettivo è analizzare il comportamento affettivo umano in ambienti reali e non controllati ("in-the-wild"), dove i segnali sono spesso sottili, transitori e soggetti a occlusioni, variazioni di illuminazione e pose, oltre a dataset sbilanciati e annotazioni rumorose.

La competizione si concentra su quattro task principali:

Riconoscimento delle Espressioni Facciali (EXPR): Classificazione frame-wise di 8 emozioni di base.
Stima Valenza-Arousal (VA): Predizione di valori continui per l'intensità emotiva (valenza e attivazione).
Rilevamento delle Unità di Azione (AU): Classificazione multi-label di 12 micro-espressioni facciali.
Rilevamento della Violenza Fine-Grained (VD): Classificazione frame-wise di scene video come violente o non violente, richiedendo l'analisi dell'intero frame (movimento corporeo, interazioni, contesto).

2. Metodologia Proposta

L'approccio del team si distingue per la sua leggerezza computazionale e l'uso intelligente di modelli pre-addestrati, evitando architetture temporali complesse e pesanti quando non strettamente necessarie.

A. Analisi Facciale (EXPR, VA, AU)

Per i task basati sul viso, il team utilizza un pipeline ibrido che combina estrattori di embedding pre-addestrati e classificatori semplici:

Estrazione di Embedding: Vengono utilizzati modelli leggeri (basati su EfficientNet, DDAMFN, MobileViT) pre-addestrati su dataset esterni (come AffectNet) per estrarre embedding facciali da ogni frame.
Classificazione Ibrida (Logica di Filtro):
- Se il modello pre-addestrato mostra una confidenza elevata (superiore a una soglia $p_0$ , tipicamente 0.8-0.9), la sua predizione viene utilizzata direttamente.
- Se la confidenza è bassa, gli embedding vengono passati a un MLP (Multi-Layer Perceptron) semplice addestrato sul dataset ufficiale AffWild2.
Gestione dello Sbilanciamento (GLA): Per mitigare lo sbilanciamento delle classi emotive, viene applicata la Generalized Logit Adjustment (GLA). I bias del classificatore vengono calibrati sulla validazione per massimizzare il punteggio F1.
Fusione Multimodale: Vengono estratti feature audio (tramite wav2vec 2.0) e fusi con le feature visive tramite un blending ponderato.
Smoothing Temporale: Le predizioni frame-wise vengono lisciate utilizzando una finestra scorrevole (sliding window) per ridurre il rumore e garantire coerenza temporale.
Task Specifici:
- VA: Utilizza un MLP senza layer nascosti con una funzione di perdita combinata (MSE + CCC).
- AU: Utilizza un MLP con 12 output e attivazione sigmoide, con pesi per le classi positive e ricerca ottimizzata delle soglie di decisione per ogni AU.

B. Rilevamento della Violenza (VD)

Per il task di violenza, che richiede l'analisi del contesto globale e non solo del viso:

Backbone Visivo: Vengono testati diversi encoder (3D e 2D). La configurazione migliore utilizza ConvNeXt-T (pre-addestrato su ImageNet-1K) per estrarre feature per frame.
Modellazione Temporale: Le feature per frame vengono processate da una TCN (Temporal Convolutional Network) a 5 strati con dilatazione o un BiLSTM.
Fusione Multimodale (Skeleton): Una variante multimodale integra feature scheletriche estratte con MediaPipe Pose (coordinate, velocità, distanze di interazione) fuse con le feature RGB tramite cross-attention prima dell'elaborazione temporale.
Training: Utilizzo di weighted cross-entropy per gestire lo sbilanciamento tra classi violente/non violente e tecniche di augmentation (TrivialAugmentWide).

3. Risultati Chiave

I risultati sono stati ottenuti sul set di validazione ufficiale di AffWild2 (per i task facciali) e DVD (per la violenza).

Riconoscimento Espressioni (EXPR):
- Il metodo proposto ha raggiunto un F1-score macro di 47.40 e un'accuratezza del 57.98%.
- Questo rappresenta un miglioramento significativo rispetto alla baseline del challenge (VGGFACE: 25.0% F1) e supera molte architetture complesse basate su Transformer o MAE, dimostrando che un approccio leggero con GLA e smoothing è altamente efficace.
Stima Valenza-Arousal (VA):
- Il sistema ha ottenuto un CCC medio ( $P_{VA}$ ) di 0.562 (CCC Valenza: 0.510, CCC Arousal: 0.615).
- I risultati superano nettamente la baseline ResNet-50 (0.22) e competono con metodi multimodali molto più complessi.
Rilevamento Unità di Azione (AU):
- Il punteggio F1 macro è stato di 54.7%.
- L'uso combinato di embedding e logits, con smoothing e tuning delle soglie, ha chiuso il divario con le soluzioni di punta (che raggiungono il 58%), mantenendo una complessità computazionale inferiore.
Rilevamento Violenza (VD):
- Il modello ConvNeXt-T + TCN ha raggiunto un Macro F1 di 0.783.
- Questo risultato migliora la baseline del challenge precedente (ABAW-9, ResNet-50 + BiLSTM: 0.640) di oltre 0.14 punti.
- È interessante notare che i modelli 2D pre-addestrati su ImageNet combinati con testate temporali semplici hanno superato le architetture 3D (come VideoMAE o R(2+1)D) specifiche per video.

4. Contributi Principali

Pipeline Efficiente e Scalabile: Dimostrazione che non è necessario utilizzare modelli video 3D pesanti o architetture Transformer complesse per ottenere risultati di stato dell'arte; un approccio basato su embedding pre-addestrati + MLP + smoothing è sufficiente e più efficiente.
Gestione Avanzata dello Sbilanciamento: L'applicazione sistematica della GLA (Generalized Logit Adjustment) e della calibrazione dei bias ha permesso di gestire efficacemente le classi emotive rare.
Fusione Ibrida Intelligente: L'uso di una logica di filtro basata sulla confidenza (usare il modello pre-addestrato se sicuro, altrimenti l'MLP) ottimizza il compromesso tra velocità e accuratezza.
Transizione Tecnologica: Il passaggio da TensorFlow 2.x a PyTorch rende il codice più accessibile alla comunità di ricerca attuale.
Open Source: La pubblicazione del codice per i task di analisi facciale e violenza (in repository separati) favorisce la riproducibilità.

5. Significato e Impatto

Il lavoro di HSEmotion è significativo perché offre una soluzione pragmatica per l'analisi affettiva nel mondo reale. Invece di cercare di massimizzare la complessità del modello, il team ha ottimizzato il flusso di dati, la calibrazione e la fusione delle informazioni.

I risultati suggeriscono che:

Per l'analisi facciale, la qualità delle feature estratte da modelli pre-addestrati su grandi dataset (come AffectNet) è spesso più critica della complessità del modello temporale.
Per la rilevazione della violenza, i backbone 2D pre-addestrati su ImageNet, se combinati con una modellazione temporale leggera, possono superare le architetture 3D specializzate su dataset più piccoli.
Questo approccio è ideale per applicazioni reali (monitoraggio della sicurezza, interazione uomo-computer) dove è richiesto un basso costo computazionale, robustezza al rumore e coerenza temporale.