A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Défi : Deviner les émotions dans le chaos

Imaginez que vous essayez de deviner l'humeur d'une personne en regardant une vidéo prise dans la rue, avec une caméra tremblante, du vent, des gens qui passent devant, et un son parfois inaudible. C'est ce qu'on appelle la reconnaissance des émotions "dans la nature" (in-the-wild).

C'est très difficile ! La personne peut bouger, le visage peut être flou, ou la caméra peut mal cadrer. De plus, les émotions changent vite. Le but du papier est de créer un "super-observateur" capable de dire, image par image, si la personne est heureuse, en colère, triste, etc., même dans ces conditions chaotiques.

🏗️ La Solution : Une équipe en deux étapes

Les auteurs ne proposent pas un seul robot géant, mais une équipe de deux experts qui travaillent l'un après l'autre. C'est comme un atelier de restauration d'art : d'abord on prépare le tableau, ensuite on l'analyse.

Étape 1 : L'Entraînement du "Regard" (Le Visuel)

Avant même de regarder la vidéo finale, on entraîne un cerveau artificiel (basé sur un modèle appelé DINOv2) à bien voir les visages.

Le problème : Souvent, quand on recadre un visage sur une vidéo, on coupe un peu les bords (les oreilles, le front). C'est comme si on regardait un tableau à travers un trou dans un mur : on voit des bords noirs bizarres.
La solution (PadAug) : Pour préparer le cerveau à ce chaos, on lui montre pendant l'entraînement des images où on a artificiellement ajouté des bordures noires et des défauts. C'est comme si on entraînait un pilote de course sur un circuit avec des nids-de-poule pour qu'il soit prêt pour la vraie course.
L'astuce (MoE) : Au lieu d'avoir un seul expert, on utilise un système de "Mixture of Experts" (MoE). Imaginez un jury de 5 juges différents : l'un est expert en sourires, l'autre en froncements de sourcils, etc. Ensemble, ils forment une équipe très forte. Une fois l'entraînement fini, on ne garde que le cerveau (le jury) et on renvoie les juges à la maison.

Étape 2 : La Fusion "Audio-Visuelle" (Les Yeux et les Oreilles)

Maintenant, on prend ce cerveau entraîné et on le lance sur la vraie vidéo, mais on ne l'utilise pas seul. On lui donne un coéquipier qui a des oreilles.

Le Visuel (Les Yeux) : Pour chaque image, le système ne regarde pas juste une version du visage. Il regarde trois versions : une normale, une un peu plus large, et une très large. C'est comme si vous regardiez quelqu'un de loin, de près, et en zoomant. Il combine ces trois vues pour ne rien rater.
L'Audio (Les Oreilles) : Parfois, le visage est caché ou le sourire est ambigu. Mais la voix ne ment pas ! Le système écoute un petit bout de son (0,5 seconde) autour de l'image pour entendre si la personne crie, rit ou pleure.
Le Chef d'Orchestre (Fusion) : Comment combiner l'image et le son ? Le système utilise un module de "portail" (Gated Fusion). Imaginez un portier intelligent. Si l'image est floue mais que la voix crie "Hahaha !", le portier dit : "Je fais plus confiance à la voix". Si l'image est claire mais que le son est du vent, il dit : "Je fais confiance à l'image". Il mélange intelligemment les deux indices.

La Touche Finale : Le "Lissage" (La Stabilité)

Même avec un bon système, les prédictions peuvent sauter d'un instant à l'autre (une image dit "Triste", la suivante "Joyeuse", puis "Triste" à nouveau). C'est instable.

La solution : Le système applique un filtre de médiane. Imaginez que vous regardez une vidéo et que vous avez un doute sur une image. Vous regardez les 50 images avant et les 50 images après. Si la majorité dit "Triste", alors c'est "Triste", même si une image isolée fait une erreur. C'est comme dire : "Ne panique pas, regarde la tendance générale".

🏆 Les Résultats

Ce système a été testé lors d'un grand concours (ABAW).

Le score : Il a obtenu un score de 0,5368, ce qui est excellent et bat les méthodes précédentes.
Pourquoi ça marche ? Parce qu'il ne cherche pas à tout faire d'un coup avec un système ultra-complexe. Il décompose le problème : d'abord, il apprend à bien voir (même avec des défauts), ensuite il écoute, et enfin il calme les nerfs pour ne pas faire d'erreurs bêtes.

En résumé

C'est comme entraîner un détective :

On l'entraîne à voir des visages même s'ils sont coupés ou flous.
On lui donne des jumelles (zooms multiples) et un microphone.
On lui apprend à écouter son instinct (le portail) pour savoir quoi croire.
On lui demande de ne pas paniquer s'il voit une image bizarre, mais de regarder l'histoire globale.

Résultat : Un détective très fiable pour comprendre les émotions humaines, même dans le chaos de la vraie vie !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le papier s'attaque au défi de la reconnaissance des expressions faciales (EXPR) dans le cadre du 10e atelier et concours ABAW (Affective Behavior Analysis in-the-Wild). La tâche consiste à classer, au niveau de chaque image (frame-level), les expressions faciales dans des vidéos non contraintes (in-the-wild) selon huit catégories : Neutre, Colère, Dégoût, Peur, Bonheur, Tristesse, Surprise et Autre.

Les principales difficultés rencontrées dans ce contexte incluent :

Localisation imprécise du visage : Les cadres de détection sont souvent instables ou inexacts.
Variations de pose et d'échelle : Le visage peut changer de taille et d'orientation de manière significative entre les images.
Bruit visuel et temporel : Flou de mouvement, occlusions, changements d'éclairage et instabilité temporelle.
Données multimodales bruyantes : L'intégration efficace de l'audio et de la vidéo est complexe lorsque les observations sont imparfaites.

2. Méthodologie

Les auteurs proposent une architecture dual-modal (audio-visuelle) en deux étapes, conçue pour être robuste et efficace.

Étape I : Adaptation Visuelle (Visual Adaptation)

L'objectif est d'adapter un encodeur visuel pré-entraîné pour extraire des caractéristiques robustes avant la fusion multimodale.

Backbone : Utilisation de DINOv2 ViT-L/14, un modèle Vision Transformer pré-entraîné en auto-supervision.
Stratégie d'augmentation (PadAug) : Pour résoudre le problème des artefacts de bordure causés par le recadrage de visages à grande échelle, une augmentation « consciente du remplissage » (padding-aware) est appliquée. Elle insère aléatoirement des barres noires et perturbe les zones de remplissage pour simuler les conditions réelles de recadrage imparfait.
En-tête MoE (Mixture of Experts) : Un classifieur basé sur un mélange d'experts (MoE) est ajouté uniquement durant l'entraînement sur des jeux de données d'images (AffectNet et RAF-DB). Cela permet une spécialisation des experts pour différents motifs d'expressions. Après l'adaptation, cet en-tête est supprimé, ne conservant que le backbone DINOv2 adapté.

Étape II : Reconnaissance Émotionnelle Audio-Visuelle au Niveau de l'Image

Cette étape effectue la prédiction finale sur les vidéos brutes en intégrant les modalités.

Représentation Visuelle Multi-échelle : Pour chaque image cible, trois recadrages du visage sont extraits directement de la vidéo brute avec des échelles différentes (0.9, 1.2, 1.5). Les caractéristiques extraites par DINOv2 sont moyennées pour former une représentation visuelle robuste.
Caractéristiques Audio : Des caractéristiques acoustiques sont extraites via Wav2Vec 2.0 (Large). Pour aligner l'audio avec la vidéo, une fenêtre temporelle centrée de 0,50 seconde est utilisée pour moyenner les caractéristiques audio, fournissant un contexte acoustique stable.
Fusion Gated (Porte) : Une module de fusion léger intègre les modalités visuelles et audio. Il utilise un vecteur de porte (gating vector) appris pour pondérer dynamiquement la contribution de chaque modalité en fonction de sa fiabilité à l'instant $t$ .
Lissage Temporel (Inference) : Pour améliorer la cohérence temporelle sans ajouter de backbone temporel lourd, un lissage post-hoc est appliqué lors de l'inférence. La méthode sélectionnée est le filtre médian sur une fenêtre de 101 images, ce qui réduit les fluctuations de prédiction dues au bruit.

3. Contributions Clés

Architecture à deux étapes : Découplage de l'adaptation visuelle (sur images) et de l'apprentissage multimodal (sur vidéo), permettant une optimisation efficace et une réduction de la complexité computationnelle.
Stratégie PadAug : Une méthode de prétraitement innovante qui simule les artefacts de bordure pour améliorer la robustesse du modèle face aux variations d'échelle et aux recadrages imparfaits.
Fusion Multimodale Légère : Utilisation d'un module de fusion à porte (gated fusion) qui permet d'adapter l'importance de l'audio et de la vidéo dynamiquement, évitant les modèles trop lourds.
Lissage Temporel Simple mais Efficace : Démonstration qu'un lissage par médiane en phase d'inférence suffit à stabiliser les prédictions sans nécessiter de modèles temporels complexes (comme des RNN ou des Transformers temporels lourds).

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données officiel Aff-Wild2 (ABAW).

Performance sur l'ensemble de validation officiel : Le modèle atteint un score Macro-F1 de 0,5368.
Validation croisée (5-fold) : Un score moyen de 0,5122 ± 0,0277.
Comparaison avec les bases : Ces résultats surpassent significativement les bases officielles et les méthodes précédentes.
- L'ajout de la fusion audio-visuelle a augmenté le score de 0,4344 (visuel seul) à 0,5131.
- Le lissage temporel a apporté le gain final pour atteindre 0,5368.
Ablations :
- L'utilisation de recadrages multi-échelles (0.9/1.2/1.5) est supérieure aux échelles uniques.
- L'alignement audio par fenêtre moyenne (0.5s) est plus efficace que l'assignation par plus proche voisin.
- La fusion par porte (Gated Fusion) surpasse les méthodes de concaténation simple et d'attention croisée tout en ayant moins de paramètres.

5. Signification et Conclusion

Ce travail démontre que pour la reconnaissance des émotions dans des environnements réels (« in-the-wild »), la robustesse de l'adaptation visuelle et l'intégration multimodale stable sont plus critiques que la complexité des modèles temporels.

L'approche proposée offre un compromis optimal entre performance et efficacité computationnelle. En évitant l'optimisation de bout en bout sur de longues vidéos non contraintes et en utilisant des techniques de prétraitement intelligentes (PadAug) et de post-traitement (lissage médian), le modèle atteint des performances de pointe avec une architecture relativement légère. Cela ouvre la voie à des systèmes de reconnaissance d'affect plus fiables et déployables dans des applications réelles.