A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

Questo paper presenta un modello duale audio-visivo a due stadi basato su DINOv2 e Wav2Vec 2.0, che integra tecniche di estrazione robusta delle caratteristiche e fusione temporale per superare le sfide del riconoscimento delle espressioni facciali nel contesto del workshop ABAW 10, ottenendo risultati superiori rispetto alle linee di base ufficiali.

Jiajun Sun, Zhe Gao

Pubblicato 2026-03-13
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover indovinare l'umore di una persona guardando un video girato da un amico mentre cammina per strada. Non è come guardare un film in studio: la luce cambia, la persona si muove, il telefono trema, a volte il viso è coperto da un cappello o sfocato. Inoltre, la persona potrebbe ridere o piangere, e il suono della sua voce potrebbe essere più chiaro dell'espressione del viso.

Questo articolo descrive un "detective digitale" creato per risolvere proprio questo problema: riconoscere le emozioni umane in video reali e caotici. Gli autori hanno costruito un sistema intelligente in due fasi, come se fosse un'azienda con due dipartimenti specializzati.

Ecco come funziona, spiegato in modo semplice:

Fase 1: L'Occhio Esperto (Addestramento)

Prima di guardare i video difficili, il sistema deve imparare a "vedere" le emozioni in modo robusto.

  • Il Problema: Spesso, quando si ritaglia il viso da un video, i bordi vengono tagliati male o appaiono strisce nere (come se il ritaglio fosse andato fuori dai limiti del foglio). Questo confonde l'intelligenza artificiale.
  • La Soluzione (PadAug): Gli autori hanno insegnato al sistema a non spaventarsi di questi bordi strani. Immagina di allenare un atleta facendogli correre su terreni accidentati, non solo sull'asfalto perfetto. Hanno aggiunto "disturbi" artificiali (bordi neri, tagli strani) durante l'allenamento su foto normali, così che quando il sistema vedrà un video reale, non si confonderà più.
  • Il Motore (DINOv2): Usano un cervello artificiale molto potente (chiamato DINOv2) che già sa riconoscere oggetti. Lo hanno "specializzato" solo per le emozioni, usando una tecnica chiamata MoE (Mixture of Experts). È come avere una stanza piena di esperti: uno è bravo con la rabbia, uno con la gioia, uno con la tristezza. Quando arriva un'immagine, il sistema decide quale esperto chiamare per dare la risposta migliore.

Fase 2: L'Ascolto e l'Integrazione (Riconoscimento)

Ora che l'occhio è allenato, il sistema guarda i video veri e propri.

  • Guardare da più angolazioni: Per ogni fotogramma, il sistema non guarda il viso una sola volta. Lo "ritaglia" tre volte: una volta normale, una volta un po' più vicino e una volta un po' più lontana. Poi unisce queste tre visioni. È come se guardassi un oggetto da vicino, da lontano e di lato per capire esattamente com'è fatto.
  • Ascoltare la voce (Audio): Le emozioni non sono solo facce. A volte la voce tradisce la verità (es. qualcuno dice "sto bene" ma la voce trema). Il sistema usa un altro cervello esperto (Wav2Vec 2.0) per ascoltare brevi frammenti di audio sincronizzati con il video.
  • Il Portiere (Fusione a Cancelli): Qui arriva la parte magica. Il sistema ha due informazioni: l'immagine e il suono. Ma quale credere? Se il video è buio ma la voce è chiara, il sistema deve dare più peso alla voce. Usano un "cancelliere intelligente" (Gated Fusion) che decide, fotogramma per fotogramma, quanto fidarsi degli occhi e quanto fidarsi delle orecchie. Non è una media fissa, ma una decisione dinamica.

Il Tocco Finale: La "Stabilizzazione"

I video reali sono instabili: un attimo la persona sorride, il fotogramma successivo è sfocato e sembra arrabbiata. Se il sistema decidesse solo fotogramma per fotogramma, l'umore della persona sembrerebbe cambiare a scatti in modo assurdo.

  • La Soluzione: Hanno aggiunto un passaggio finale di "smussatura" (Temporal Smoothing). Immagina di guardare un video e dire: "Aspetta, nei 3 secondi prima e dopo, questa persona era felice, quindi anche in questo fotogramma sfocato probabilmente lo è ancora". Usano una tecnica chiamata filtro mediano (come se prendessero la "opinione di mezzo" di un gruppo di vicini) per rendere la previsione stabile e coerente nel tempo.

I Risultati

Questo sistema "due in uno" (occhio allenato + orecchio attento + stabilizzatore) ha funzionato benissimo. Ha battuto i record precedenti nel riconoscimento delle emozioni, ottenendo un punteggio molto alto anche in condizioni difficili.

In sintesi:
Hanno creato un sistema che non si lascia ingannare dai difetti del video (come i tagli strani o la sfocatura), ascolta anche la voce per capire meglio, e alla fine "ragiona" su un piccolo lasso di tempo per non fare previsioni folli e instabili. È come avere un osservatore umano molto esperto che, invece di guardare un solo istante, osserva il contesto, ascolta il tono di voce e mantiene la calma per capire davvero come si sente la persona.