Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

Il paper presenta un approccio multimodale basato su volto, comportamento e audio, che integra modelli avanzati come Qwen3-VL e Mamba con strategie di fusione adattive per raggiungere un alto livello di accuratezza nella stima continua di valenza e arousal in condizioni non controllate, ottenendo un CCC di 0.658 sul dataset Aff-Wild2 durante la 10ª edizione della competizione ABAW.

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

Pubblicato 2026-03-16
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Detective delle Emozioni: Come il Team RAS ha imparato a "leggere" i sentimenti

Immagina di dover indovinare cosa prova una persona solo guardando un video girato per strada, con luci strane, persone che si muovono velocemente e rumori di fondo. È come cercare di capire se un amico è felice o arrabbiato mentre è in mezzo a una folla rumorosa e sotto la pioggia. È difficile, vero?

Il Team RAS (un gruppo di ricercatori russi) ha partecipato a una gara mondiale chiamata ABAW proprio per risolvere questo problema. Il loro obiettivo? Creare un'intelligenza artificiale capace di stimare due cose fondamentali:

  1. Valenza: Quanto è "piacevole" l'emozione (da triste a felice).
  2. Arousal: Quanto è "intensa" l'emozione (da calmo a eccitato).

Per riuscirci, non si sono affidati a un solo senso, ma hanno creato un squadra di tre detective che lavorano insieme.


🕵️‍♂️ I Tre Detective (Le Modalità)

Invece di guardare solo il video, il sistema usa tre fonti di informazioni diverse, come se avesse tre occhi diversi:

1. Il Detective Visivo (Il Volto)

  • Cosa fa: Guarda il viso della persona, frame per frame.
  • Il suo superpotere: Usa un sistema chiamato GRADA. Immaginalo come un artista esperto che osserva ogni micro-movimento: un sopracciglio alzato, un angolo della bocca che scende.
  • Come pensa: Non si ferma a un'immagine sola. Usa un Transformer (una sorta di "memoria a lungo termine") per capire come l'espressione cambia nel tempo. Se il viso passa da un sorriso a una smorfia, questo detective lo registra come una storia, non come foto slegate.

2. Il Detective Comportamentale (Il Corpo e il Contesto)

  • Cosa fa: Non guarda solo il viso, ma l'intera scena. Guarda la postura, i gesti delle mani, come si muove la testa e cosa c'è intorno.
  • Il suo superpotere: Usa un'intelligenza artificiale molto potente chiamata Qwen3 (un modello linguistico visivo).
  • L'analogia: Immagina di dare al computer un video e dirgli: "Guarda questo video e descrivimi cosa sta provando questa persona, basandoti su tutto ciò che vedi". Il computer scrive una breve descrizione (es: "La persona sembra nervosa, guarda in giro e stringe i pugni").
  • Come pensa: Usa un sistema chiamato Mamba per leggere queste descrizioni nel tempo, collegando i gesti del passato con quelli del presente per capire l'evoluzione dell'umore.

3. Il Detective Sonoro (La Voce)

  • Cosa fa: Ascolta l'audio.
  • Il suo superpotere: Usa un modello chiamato WavLM.
  • Il problema: A volte la gente non parla, o c'è troppo rumore.
  • La soluzione: Prima di ascoltare, il sistema usa un filtro intelligente (basato sul movimento della bocca) per scartare i momenti in cui la persona non sta parlando davvero. È come se il detective si tappasse le orecchie quando c'è solo rumore di fondo e si concentra solo quando sente una voce.

🤝 La Grande Fusione: Come i Detective lavorano insieme

Avere tre detective è utile, ma il vero segreto è farli collaborare. Il team ha provato due metodi diversi per unire le loro opinioni:

Metodo A: La "Sala Riunioni Dinamica" (DCMMOE)

Immagina una stanza dove i tre detective discutono. Ogni volta che devono prendere una decisione, un "capo" (un meccanismo di controllo) decide chi ascoltare di più in quel momento.

  • Se il viso è coperto da un cappuccio, il capo dice: "Ascolta di più il detective sonoro!".
  • Se l'audio è disturbato, dice: "Fidati di più del detective visivo!".
    È un sistema che si adatta in tempo reale, pesando l'affidabilità di ogni fonte.

Metodo B: Il "Filtro di Fiducia" (RAAV)

Questo metodo è più intelligente. Prende le informazioni visive (volto + corpo) e le fonde frame per frame, come se fossero un unico flusso continuo. Poi, usa l'audio non come voce principale, ma come contesto di supporto.

  • L'analogia: È come guardare un film muto (viso e corpo) e avere una colonna sonora che ti aiuta a capire l'atmosfera. Se il viso sorride ma la musica è cupa, il sistema capisce che c'è qualcosa di strano e aggiusta la sua previsione.

🏆 I Risultati: Chi ha vinto?

Il sistema è stato testato su migliaia di video reali e difficili (il dataset Aff-Wild2).

  • Il risultato: Il sistema ha raggiunto un punteggio di 0.658 (su una scala dove 1 è perfetto). Non è perfetto, ma è un risultato molto alto per un compito così difficile.
  • La scoperta più interessante: Il "Detective Comportamentale" (quello che usa Qwen3 per descrivere l'azione) ha funzionato meglio del semplice "Detective Visivo". Questo dimostra che capire il contesto e i gesti è quasi importante quanto guardare il viso.

💡 In sintesi

Il Team RAS ha creato un sistema che non si limita a "guardare" le facce. Ascolta, osserva il corpo, legge il contesto e sa quando fidarsi di più di un senso rispetto all'altro. È come avere un gruppo di esperti che lavorano insieme per capire il cuore umano, anche quando il mondo intorno è caotico e rumoroso.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →