Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre l'humeur d'un ami qui vous raconte une histoire. Si vous ne le regardez que dans une photo figée, vous risquez de rater quelque chose. Si vous ne l'écoutez que par téléphone, vous manquez ses expressions faciales. Mais si vous le voyez et l'entendez en même temps, en observant comment ses gestes et sa voix évoluent ensemble, vous comprenez vraiment ce qu'il ressent.

C'est exactement ce que font les chercheurs de l'Université Kookmin en Corée du Sud dans ce papier. Ils ont créé un "super-détective" numérique capable de deviner les émotions humaines dans des vidéos réelles (en plein air, avec du bruit, de la lumière changeante, etc.), là où les méthodes habituelles échouent souvent.

Voici comment leur système fonctionne, expliqué avec des images simples :

1. Les Deux Sens du Détective (Vision et Ouïe)

Leur système utilise deux "super-héros" pré-entraînés qui ne bougent pas (ils sont "gelés" pour ne pas oublier ce qu'ils savent déjà) :

Le Visuel (CLIP) : C'est comme un expert en art qui a vu des millions de photos. Il regarde chaque image de la vidéo et dit : "Tiens, c'est un visage qui semble triste ou joyeux."
L'Auditif (Wav2Vec 2.0) : C'est comme un expert en musique et en voix. Il écoute le son et dit : "Attends, le ton de cette voix est tremblant, ça sent la peur ou l'excitation."

2. Le Problème du Temps : Pourquoi une photo ne suffit pas

Les émotions ne sont pas des photos fixes, ce sont des films. Un sourire commence petit, grandit, puis disparaît.

L'Analogie du TCN : Imaginez que vous essayez de comprendre une blague en ne regardant que le moment où la personne rit. Vous ne comprenez pas le contexte. Les chercheurs ont ajouté un module appelé TCN (Réseau de Convolution Temporel). C'est comme un chef d'orchestre qui regarde toute la séquence de la vidéo, pas juste une note isolée. Il relie les images entre elles pour voir l'histoire complète de l'expression faciale.

3. La Conversation entre les Sens (Attention Croisée)

C'est la partie la plus ingénieuse. Souvent, les systèmes actuels regardent la vidéo et l'audio séparément, puis les mélangent grossièrement.

L'Analogie du Duo de Danse : Ici, les chercheurs ont créé une danse en miroir. Le module d'attention bidirectionnelle permet à la "vision" de demander à l'"ouïe" : "Hé, tu as entendu ce ton de voix ? Ça change ma façon de voir ce sourire !" Et inversement, l'ouïe demande à la vision : "Tu as vu ce froncement de sourcils ? Ça m'aide à comprendre ce cri."
Ils se parlent dans les deux sens pour se corriger et se compléter. Si le visage est caché par un chapeau (mauvaise vision), l'oreille peut prendre le relais. Si la voix est couverte par le bruit de la rue, les yeux peuvent aider.

4. L'Entraînement avec des Mots (L'Alignement Sémantique)

Pour que le système soit encore plus intelligent, les chercheurs lui ont donné un petit coup de pouce avec du texte.

L'Analogie du Dictionnaire : Ils utilisent des phrases comme "Un visage exprimant la joie" ou "Un visage exprimant la colère". Le système compare l'image qu'il voit avec ces descriptions textuelles. C'est comme si on lui disait : "Regarde cette image, est-ce qu'elle ressemble vraiment à ce que le mot 'joie' signifie ?" Cela l'aide à mieux comprendre le sens profond des émotions, pas juste les formes.

Le Résultat ?

Quand ils ont testé leur système sur un grand concours de reconnaissance d'émotions (le défi ABAW), il a battu le record précédent.

En regardant plus longtemps (60 images au lieu de 30), le système a eu encore plus de succès, prouvant que pour comprendre une émotion, il faut prendre son temps et regarder l'histoire complète, pas juste un instant.

En résumé : Ce papier propose un système qui ne se contente pas de "voir" et d'"entendre". Il écoute ce que l'image dit à la voix et vice-versa, tout en se souvenant de l'histoire qui se déroule dans le temps, le tout en s'aidant de mots pour mieux comprendre le cœur humain. C'est un pas de géant vers des machines qui comprennent vraiment nos sentiments, même dans le chaos du monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance des émotions dans des vidéos « in-the-wild » (en conditions réelles, non contrôlées) reste un défi majeur en informatique affective. Les difficultés principales proviennent de :

Variations environnementales : changements d'éclairage, bruit de fond, occlusions et variations de la pose de la tête.
Nature dynamique : Les expressions faciales évoluent dans le temps, rendant l'analyse d'images statiques insuffisante.
Limites des approches unimodales : Se fier uniquement à la vidéo (expressions faciales) ou à l'audio (voix) ne capture pas la complexité des signaux émotionnels. L'audio apporte des indices prosodiques et paralinguistiques qui peuvent désambiguïser des expressions faciales incertaines, et vice-versa.

L'objectif de ce travail est de proposer un cadre robuste pour la tâche de reconnaissance d'expressions (EXPR) lors du 10e défi ABAW (Affective Behavior Analysis in-the-wild).

2. Méthodologie

L'approche proposée est une architecture multimodale unifiée composée de cinq étapes clés :

A. Extraction de caractéristiques (Backbones Gelés)

Le modèle utilise des réseaux pré-entraînés à grande échelle, maintenus gelés (frozen) pendant l'entraînement pour éviter le surapprentissage et assurer une stabilité :

Flux Visuel : Utilisation de CLIP (ViT-B/32) pour encoder les séquences d'images. Chaque image est encodée indépendamment pour produire une séquence de caractéristiques visuelles $X_v$ .
Flux Audio : Utilisation de Wav2Vec 2.0 (Base) pour extraire les représentations contextuelles du signal audio brut (échantillonné à 16 kHz), produisant une séquence $X_a$ .
Prompts Textuels : Des invites textuelles (« A face expressing [Emotion] ») sont générées via l'encodeur texte de CLIP pour servir de référence sémantique.

B. Modélisation Temporelle et Adaptation

Modélisation Visuelle Temporelle (TCN) : Contrairement aux approches purement spatiales, les caractéristiques visuelles passent par un Réseau de Convolution Temporelle (TCN) à 6 couches avec des convolutions causales dilatées. Cela permet de capturer les dépendances temporelles et la dynamique de formation des expressions sans sacrifier la résolution temporelle.
Adaptation Audio : Les caractéristiques audio sont projetées dans le même espace de dimension que le flux visuel (512 dimensions) via un « Audio Adapter » (couche linéaire, Normalisation de couche, ReLU, Dropout).

C. Fusion par Attention Croisée Bidirectionnelle

C'est le cœur de l'innovation pour l'intégration multimodale. Au lieu d'une simple concaténation, le modèle utilise un mécanisme d'attention symétrique :

Visuel vers Audio : Les caractéristiques visuelles interrogent (Query) les caractéristiques audio (Key/Value) pour enrichir le contexte visuel avec l'information audio.
Audio vers Visuel : Les caractéristiques audio interrogent les caractéristiques visuelles pour affiner la représentation vocale.
Cette interaction bidirectionnelle permet de capturer les informations complémentaires et de compenser les modalités moins informatives.

D. Classification et Objectif d'Apprentissage

Pooling Temporel : Après la fusion, les séquences sont moyennées dans le temps pour obtenir une représentation globale multimodale (concaténation des pools visuel et audio).
Classifieur : Un MLP (Perceptron Multicouche) simple prédit les 8 classes d'émotions.
Apprentissage Contrastif Guidé par le Texte : Un objectif secondaire est ajouté pour aligner sémantiquement les représentations visuelles avec les embeddings textuels de CLIP. Cela encourage le modèle à apprendre des représentations visuelles cohérentes avec les descriptions linguistiques des émotions. La fonction de perte totale combine la perte de classification (entropie croisée) et la perte contrastive.

3. Contributions Clés

Les auteurs identifient trois contributions principales :

Modélisation temporelle visuelle avec TCN : Intégration d'un TCN pour capturer la dynamique temporelle des expressions faciales, dépassant les limites des représentations par image unique.
Fusion multimodale bidirectionnelle : Introduction d'un mécanisme d'attention croisée symétrique permettant une interaction riche et réciproque entre l'audio et la vidéo.
Alignement sémantique guidé par le texte : Utilisation d'un objectif contrastif basé sur les embeddings textuels de CLIP pour améliorer la qualité sémantique des représentations visuelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur la validation du défi ABAW 10 (tâche EXPR).

Métriques : Précision (Accuracy) et Macro F1-score (métrique principale officielle).
Comparaison : Le modèle proposé est comparé à la ligne de base officielle (basée sur VGGFace pré-entraîné).
Performance :
- La ligne de base officielle obtient un Macro F1 de 0,2500.
- Le modèle proposé (fenêtre de 60 images) atteint un Macro F1 de 0,3334 et une précision de 53,71 %.
- Une fenêtre temporelle plus longue (60 images vs 30 images) s'est révélée bénéfique, confirmant l'importance du contexte temporel étendu.

5. Signification et Conclusion

Ce travail démontre l'efficacité de combiner :

Des représentations pré-entraînées puissantes (CLIP, Wav2Vec 2.0).
Une modélisation temporelle explicite (TCN).
Une fusion multimodale sophistiquée (Attention bidirectionnelle).

Les résultats montrent que cette approche surpasse significativement les méthodes unimodales et les lignes de base existantes dans des environnements non contrôlés. L'intégration de l'audio et de la vidéo, couplée à un alignement sémantique via le texte, offre une représentation plus discriminative et robuste pour la reconnaissance des émotions.

Pour les travaux futurs, les auteurs envisagent d'explorer des stratégies de modélisation temporelle encore plus efficaces et d'intégrer d'autres modalités pour renforcer la robustesse dans des scénarios réels complexes.