Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere a una festa e di osservare qualcuno che sta cercando di decidere se accettare un invito a ballare. Non è un "sì" entusiasta, né un "no" secco. È un "forse sì, forse no", un momento di esitazione, di ambivalenza. Riuscire a capire questo stato d'animo guardando solo una persona è difficile, ma farlo guardando un video, ascoltando la sua voce e leggendo le sue parole è una sfida enorme per un computer.

Questo è esattamente il compito che il Team LEYA ha affrontato nel decimo grande torneo di intelligenza artificiale chiamato ABAW. Il loro obiettivo? Creare un "detective digitale" capace di capire se una persona in un video è indecisa o esitante.

Ecco come hanno fatto, spiegato con parole semplici e qualche metafora creativa:

1. I Quattro Detective (I Modelli Unimodali)

Invece di affidarsi a un solo "senso", il team ha creato quattro esperti diversi, ognuno specializzato in un tipo di informazione. Immaginali come quattro detective che lavorano sullo stesso caso:

Il Detective della Scena (Video): Guarda l'intero video, non solo la faccia. Osserva lo sfondo, i movimenti generali e l'atmosfera. È come guardare il film intero per capire il contesto, non solo il primo piano. Ha usato una tecnologia chiamata VideoMAE, che è come un occhio che impara a vedere il movimento guardando migliaia di filmati.
Il Detective delle Espressioni (Faccia): Si concentra solo sul viso. Analizza ogni micro-movimento, ogni smorfia. È come un fotografo che scatta centinaia di foto al secondo per catturare un'emozione che dura un millesimo di secondo.
Il Detective della Voce (Audio): Ascolta il tono, le pause, i tremori nella voce. Non importa cosa dice la persona, ma come lo dice. Se la voce trema o si interrompe, è un segnale di esitazione.
Il Detective delle Parole (Testo): Legge la trascrizione di ciò che viene detto. Analizza le parole scelte. A volte, le parole dicono una cosa ("Sì, lo farò"), ma il tono dice un'altra. Questo detective cerca queste incongruenze.

2. Il Grande Tavolo di Riunione (Fusione Multimodale)

Fin qui, ogni detective lavora da solo. Ma il vero genio del Team LEYA sta nel farli sedere tutti allo stesso tavolo per discutere il caso.

Hanno creato una sala riunioni digitale (un modello di fusione) dove i quattro detective condividono le loro prove.

Se il Detective della Faccia vede un sorriso, ma il Detective della Voce sente un tono triste, il sistema capisce che c'è un conflitto (ambivalenza).
Se il Detective delle Parole dice "Sono sicuro", ma il Detective della Scena vede la persona che guarda nervosamente l'orologio, il sistema capisce che c'è incertezza.

3. Il Trucco Segreto: I "Prototipi"

C'è un dettaglio speciale nel loro metodo. Immagina che il sistema non cerchi solo di indovinare "Sì" o "No", ma abbia in mente dei modelli ideali (chiamati "prototipi") di cosa significa essere "esitante" e cosa significa essere "deciso".

Durante l'addestramento, il sistema confronta ciò che vede nel video con questi modelli ideali. È come se avesse due scatole: una etichettata "Esitazione Pura" e una "Decisione Pura". Il sistema cerca di capire quanto il video assomiglia a ciascuna scatola. Questo aiuta il computer a essere più preciso, anche quando il caso è confuso.

4. La Squadra dei Cinque (L'Ensemble)

Alla fine, per essere sicuri al 100%, non hanno mandato in gara un solo detective. Hanno creato cinque copie di questo sistema super-intelligente e li hanno fatti lavorare insieme.
È come avere cinque giudici in un tribunale: se quattro dicono "È esitante" e uno dice "Forse", il verdetto finale sarà basato sulla maggioranza. Questo metodo ha permesso loro di ottenere il miglior risultato possibile nel test finale.

Il Risultato

Il team ha scoperto che:

Le parole contano molto: Il detective delle parole (il testo) era spesso il più bravo da solo.
Insieme sono più forti: Quando tutti e quattro i detective lavoravano insieme, il sistema diventava molto più intelligente di quanto non fosse da solo.
La scena aiuta: Guardare l'ambiente circostante (non solo la faccia) ha dato un vantaggio in più.

In sintesi, il Team LEYA ha costruito un sistema che non si limita a guardare o ascoltare, ma ascolta, guarda, legge e incrocia i dati per capire le sfumature più sottili delle emozioni umane. È come avere un amico molto attento che nota tutto: non solo quello che dici, ma come lo dici, cosa fai mentre lo dici e cosa succede intorno a te.

Il loro lavoro dimostra che per capire l'incertezza umana, l'intelligenza artificiale deve imparare a fare lo stesso: guardare il quadro completo, non solo un pezzo di esso.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contesto

Il riconoscimento dell'ambivalenza e dell'esitazione (A/H) in video non vincolati rappresenta una sfida significativa nell'ambito dell'affective computing. A differenza delle emozioni di base (es. felicità, sorpresa), l'A/H è uno stato comportamentale sottile, dipendente dal contesto e spesso caratterizzato da inconsistenze tra diverse modalità (ad esempio, discrepanze tra ciò che una persona dice, come lo dice e il suo aspetto facciale).

Il compito, proposto nel contesto della 10th ABAW Competition (Workshop and Competition on Affective & Behavior Analysis in-the-Wild), richiede di classificare a livello di video se è presente o meno uno stato di ambivalenza/esitazione. Questo è cruciale per applicazioni come la salute comportamentale digitale, dove tali segnali possono indicare incertezza decisionale, resistenza al cambiamento o rischio di disimpegno.

2. Metodologia Proposta

Il team LEYA ha sviluppato un approccio multimodale che integra quattro canali complementari: scena, volto, audio e testo. La pipeline si articola in tre fasi principali:

A. Estrazione delle Caratteristiche Unimodali

Ogni modalità viene elaborata da un modello dedicato per ottenere embedding compatti:

Modulo Visivo Basato sulla Scena (Scene-based): Utilizza l'architettura VideoMAE (basata su ViT) pre-addestrata su Kinetics-400. Analizza 16 frame uniformemente campionati per catturare la dinamica comportamentale e l'incertezza contestuale, producendo un embedding globale tramite pooling medio.
Modulo Visivo Basato sul Volto (Face-based): Rileva i volti (tramite YOLO), estrae le caratteristiche emotive frame-per-frame utilizzando EmotionEfficientNetB0 (fine-tuned su AffectNet+). Le embedding frame-level vengono aggregate tramite statistical pooling (media e deviazione standard) e processate da un MLP.
Modulo Acustico (Audio): Estrae le caratteristiche emotive dall'audio (16 kHz) utilizzando EmotionWav2Vec2.0 (fine-tuned su MSP-Podcast). Le sequenze temporali vengono elaborate da un encoder Mamba (un'architettura basata su stati spaziali efficienti) seguita da mean pooling per ottenere un embedding acustico compatto.
Modulo Linguistico (Testo): Le trascrizioni audio vengono elaborate. Sebbene siano stati testati modelli TF-IDF e vari transformer, la configurazione principale utilizza EmotionDistilRoBERTa fine-tuned direttamente per il compito di classificazione A/H.

B. Fusione Multimodale

Le embedding unimodali (proiettate in uno spazio latente condiviso) vengono fuse utilizzando un modulo Transformer:

I token delle diverse modalità vengono concatenati e arricchiti con embedding di modalità apprese.
Un encoder Transformer gestisce le dipendenze inter-modalità, permettendo di mascherare le modalità mancanti se presenti.
Viene utilizzata una strategia di pooling medio mascherato per ottenere una rappresentazione fusa finale.

C. Classificazione e Prototipi

Per migliorare la robustezza, il sistema introduce un obiettivo di classificazione basato su prototipi:

Vengono appresi prototipi specifici per classe nello spazio latente.
Durante l'addestramento, viene aggiunta una perdita ausiliaria ( $L_{proto}$ ) che confronta la rappresentazione fusa con questi prototipi, regolarizzando il modello.
La perdita totale combina la perdita di classificazione principale, la perdita basata sui prototipi e una regolarizzazione per la diversità dei prototipi.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti sul corpus BAH (1.427 video, 300 partecipanti). La metrica principale è il Macro F1-score (MF1).

Modelli Unimodali: Il testo è risultato la modalità più informativa. Il modello EmotionDistilRoBERTa ha ottenuto il miglior MF1 medio tra i singoli modelli (70.02%). I modelli basati su volto e scena hanno ottenuto prestazioni inferiori (circa 62-63%).
Fusione Multimodale: La fusione ha dimostrato guadagni significativi rispetto alle baseline unimodali.
- Il modello di fusione con prototipi (4 modalità) ha raggiunto un MF1 medio di 83.25% sul set di sviluppo/validazione.
- Il modello di fusione senza prototipi ha raggiunto l'82.66%.
Performance Finale: La migliore performance sul test privato è stata ottenuta tramite un ensemble di cinque modelli di fusione potenziati da prototipi, raggiungendo un MF1 del 71.43%. Questo sottolinea l'importanza dell'aggregazione robusta dei modelli per la generalizzazione.
Studio di Ablazione: La combinazione di scena e testo ha fornito il segnale complementare più forte tra le coppie di modalità. L'uso di tutte e quattro le modalità ha prodotto la soluzione complessiva più efficace.

4. Contributi Chiave

Integrazione della Modalità Scena: A differenza di approcci precedenti che si concentravano principalmente su volto, audio e testo, questo lavoro incorpora esplicitamente la dinamica della scena (VideoMAE) per catturare il contesto comportamentale.
Architettura di Fusione Avanzata: Utilizzo di un encoder Transformer per la fusione a livello di embedding, combinato con un obiettivo di classificazione basato su prototipi per gestire l'incertezza e le inconsistenze multimodali.
Validazione Sperimentale Rigorosa: Dimostrazione che l'ensemble di modelli potenziati da prototipi supera le singole istanze, fornendo una strategia robusta per la competizione ABAW.
Conferma dell'Importanza del Testo: Validazione empirica che il linguaggio è il singolo indicatore più forte per l'A/H, ma che la fusione multimodale è essenziale per massimizzare le prestazioni.

5. Significato e Impatto

Questo lavoro dimostra che il riconoscimento dell'ambivalenza e dell'esitazione richiede necessariamente un approccio multimodale che non si limiti a fondere le caratteristiche, ma che modelli esplicitamente le inconsistenze tra le modalità. L'uso di tecniche avanzate come i modelli Mamba per l'audio, i transformer per la fusione e la regolarizzazione basata su prototipi offre una direzione promettente per l'analisi del comportamento umano in scenari reali non vincolati. Il codice sorgente è stato reso pubblico, facilitando la ricerca futura in questo dominio.