Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre les émotions d'une personne dans une foule bruyante et mouvementée. Parfois, elle tourne la tête, parfois un objet cache son visage, et parfois, vous ne voyez que sa silhouette. C'est exactement le défi que relève cette équipe de chercheurs pour le 10e défi ABAW (Analyse du comportement affectif dans la nature).

Voici une explication simple de leur solution, imagée comme une équipe de détectives très bien entraînés.

1. Le Problème : Un monde imparfait

Dans les films ou les laboratoires, les gens sourient face à une caméra parfaite. Mais dans la vraie vie ("in-the-wild"), c'est le chaos :

Le visage est caché (par une main, un masque, ou parce que la personne regarde ailleurs).
La lumière est mauvaise.
Les émotions sont rares : Il y a beaucoup plus de gens "neutres" ou "tristes" que de gens "en colère" ou "surpris" dans les données. C'est comme chercher une aiguille dans une botte de foin, mais l'aiguille change de forme.

2. La Solution : Une équipe de deux détectives (Multimodalité)

Au lieu de compter sur un seul détective (juste la vue), l'équipe a créé un système avec deux experts qui travaillent ensemble :

Le Détective Visuel (Les Yeux) : Il regarde les expressions du visage. Il utilise un cerveau artificiel très puissant appelé BEiT-large, entraîné sur des milliers de photos pour reconnaître les sourires, les froncements de sourcils, etc.
Le Détective Auditif (Les Oreilles) : Il écoute la voix, le ton, et les soupirs. Il utilise un autre cerveau appelé WavLM-large. Même si vous ne voyez pas le visage, le ton de la voix peut révéler la peur ou la joie.

3. L'Innovation Magique : Le "Filet de Sécurité" (Safe Cross-Attention)

C'est ici que leur idée est la plus brillante.
Imaginez que le Détective Visuel s'endort ou que son champ de vision est totalement bloqué. Dans un système normal, tout le monde panique et l'ordinateur fait une erreur.

Ici, ils ont installé un mécanisme de sécurité :

Si le visage est caché, le système dit : "Pas de panique ! Le Détective Auditif prend le relais à 100 %."
Ils ont entraîné le système à simuler des pannes pendant l'apprentissage (en cachant artificiellement des visages). C'est comme un pompier qui s'entraîne dans le noir pour savoir comment agir si la lumière s'éteint.
Résultat : Même si vous ne voyez rien, le système reste précis grâce à la voix.

4. L'Entraînement : Apprendre à ne pas être biaisé

Le jeu de données (Aff-Wild2) est déséquilibré : il y a des milliers d'exemples de "neutre" et très peu de "peur".

Le problème : Un élève paresseux dirait : "Je vais juste répondre 'neutre' à chaque fois, j'aurai raison 80 % du temps !"
La solution (Focal Loss) : Les chercheurs ont créé une règle de jeu spéciale qui récompense l'élève quand il a raison sur les cas difficiles (les émotions rares) et le punit s'il se repose sur les cas faciles. Cela force le système à vraiment apprendre les émotions rares.

5. La Réponse Finale : Le Vote Doux (Sliding Window)

Les émotions ne sont pas des photos fixes, elles sont comme une rivière qui coule. Une personne ne passe pas de "heureux" à "triste" en une fraction de seconde.

Au lieu de juger chaque image individuellement (ce qui crée des sauts bizarres dans le résultat), le système regarde une fenêtre glissante (comme un film qui avance de quelques images à la fois).
Il prend la moyenne des avis de cette fenêtre pour lisser le résultat. C'est comme si vous demandiez à un groupe d'amis de deviner l'émotion d'un film, et vous preniez la moyenne de leurs réponses pour éviter les erreurs d'un seul individu.

Le Résultat

Grâce à cette combinaison de deux sens (vue + ouïe), d'un filet de sécurité pour les moments où la vue manque, et d'un entraînement intelligent pour les émotions rares, leur système a atteint une précision de 60,79 % et un score F1 de 0,5029.

En résumé : Ils ont créé un système qui ne panique pas quand il ne voit pas le visage, qui écoute la voix pour compenser, et qui est assez malin pour ne pas se fier uniquement aux émotions les plus courantes. C'est un pas de géant vers des machines capables de comprendre les humains dans la vraie vie, avec tout son chaos.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance des émotions dans des environnements réels (« in-the-wild ») fait face à des défis majeurs qui limitent la généralisation des modèles actuels :

Occlusions et données manquantes : Les sujets peuvent être partiellement masqués ou quitter le champ de vision, rendant les indices visuels indisponibles.
Déséquilibre de classes sévère : Le jeu de données Aff-Wild2 présente une distribution à « longue traîne » (long-tail), où certaines émotions sont beaucoup plus rares que d'autres, biaisant les modèles vers les classes majoritaires.
Bruit et complexité : Les conditions d'éclairage variables, les poses de tête et les différences culturelles compliquent l'extraction de caractéristiques fiables.
Jitter temporel : Les classifications au niveau de l'image (frame-level) souffrent souvent d'instabilité et de transitions brusques non réalistes.

2. Méthodologie

L'équipe propose un cadre multimodal robuste basé sur une architecture Transformer à deux branches, intégrant plusieurs innovations clés :

A. Extraction de Caractéristiques (Feature Extraction)

Une approche en deux étapes est utilisée pour éviter le surapprentissage (overfitting) :

Visuel : Utilisation de l'architecture BEiT-large, pré-entraînée sur un mélange de jeux de données statiques (Raf-DB, FERPlus, AffectNet) puis affinée (fine-tuning) sur les vidéos cibles (Aff-Wild2).
Audio : Extraction du flux audio traité par WavLM-large (pré-entraîné sur un grand corpus de parole) pour capturer la prosodie et les fluctuations émotionnelles subtiles. Les caractéristiques audio sont rééchantillonnées par interpolation linéaire pour s'aligner temporellement avec les images vidéo.

B. Architecture du Réseau et Fusion Multimodale

Le cœur du modèle est un Transformer à deux branches avec un mécanisme d'attention croisée sécurisé :

Attention Croisée (Cross-Attention) : Des blocs d'attention croisée permettent l'interaction bidirectionnelle entre les caractéristiques visuelles ( $H_v$ ) et audio ( $H_a$ ).
Fusion par Portail Apprenable (Gating Mechanism) : Un mécanisme de porte (gating) apprend à équilibrer dynamiquement la contribution des caractéristiques unimodales et des caractéristiques fusionnées.
Attention Sécurisée (Safe Cross-Attention) et Dropout de Modalité :
- Pour gérer les cas où la vision est absente (sujet hors champ), une stratégie de dropout de modalité est appliquée durant l'entraînement (masquage aléatoire de l'entrée visuelle).
- Architecturalement, si aucune donnée visuelle n'est détectée, le mécanisme d'attention est « sécurisé » : la sortie de l'attention est forcée à zéro, et la connexion résiduelle permet au modèle de basculer gracieusement vers une prédiction basée uniquement sur l'audio, évitant ainsi l'effondrement du modèle.

C. Optimisation et Post-traitement

Focal Loss : Pour contrer le déséquilibre des classes, la fonction de perte standard est remplacée par le Focal Loss. Cela réduit le poids des échantillons faciles et majoritaires, forçant le modèle à se concentrer sur les échantillons difficiles et minoritaires (longue traîne).
Stratégie d'Inférence (Fenêtres Glissantes) : Pour capturer les dépendances temporelles et lisser les prédictions :
- Utilisation de fenêtres glissantes chevauchantes (taille $W=64$ , pas $S=8$ ).
- Voting Soft : Au lieu de voter sur les étiquettes, on moyenne les logits (probabilités brutes) sur toutes les fenêtres couvrant une image donnée.
- Filtrage Médian : Un filtre médian (noyau $k=11$ ) est appliqué aux prédictions finales pour réduire le bruit et les sauts de classification tout en préservant les frontières des états émotionnels.

3. Contributions Clés

Mécanisme d'Attention Sécurisé : Une solution innovante pour garantir la stabilité du modèle même en l'absence totale de données visuelles, permettant une dégradation gracieuse vers la modalité audio.
Stratégie de Dropout de Modalité : Simulation réaliste des pertes de signal visuel durant l'entraînement pour améliorer la robustesse en conditions réelles.
Optimisation Spécifique à la Longue Traîne : Combinaison du Focal Loss et d'une pondération dynamique des classes pour améliorer la reconnaissance des émotions rares dans Aff-Wild2.
Pipeline d'Inférence Temporel : Une approche de lissage par fenêtres glissantes et voting soft qui réduit significativement le jitter (tremblement) des prédictions au niveau de l'image.

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données de validation Aff-Wild2 (Challenge EXPR de la 10ème édition ABAW) :

Performance : Le modèle atteint une précision (Accuracy) de 60,79 % et un F1-score de 0,5029.
Analyse d'Ablation :
- La fusion multimodale est cruciale : un modèle purement visuel obtient un F1 de ~0,4368, tandis que la fusion optimisée (avec $\lambda=0,7$ pour le poids visuel) atteint ~0,4436, prouvant que l'audio comble les lacunes visuelles.
- Le dropout de modalité ( $p=0,10$ ) améliore considérablement le F1-score (de 0,4764 à 0,5029) en forçant le modèle à apprendre à utiliser l'audio.
- Des modèles trop complexes (plus de couches ou dimensions plus grandes) tendent à surapprendre (overfitting) sur ce jeu de données bruyant et limité.

5. Signification et Impact

Ce travail démontre qu'une reconnaissance des émotions robuste en environnement non contrôlé nécessite plus que de simples modèles multimodaux ; elle exige une architecture capable de gérer l'incertitude des données d'entrée.

Robustesse Opérationnelle : La capacité à fonctionner sans données visuelles est un pas important vers le déploiement de systèmes affectifs dans le monde réel, où les caméras peuvent être obstruées.
Gestion du Déséquilibre : L'approche proposée offre une voie efficace pour traiter les distributions de données à longue traîne, un problème persistant dans les jeux de données « in-the-wild ».
Équilibre Modèle/Données : L'étude montre que pour des données bruyantes et limitées comme Aff-Wild2, des architectures de capacité moyenne (ni trop petites, ni trop grandes) combinées à des stratégies de régularisation intelligentes (dropout, focal loss) surpassent les modèles massifs.

En résumé, cette solution propose un cadre complet qui allie extraction de caractéristiques de pointe, mécanismes de fusion adaptatifs et stratégies d'inférence temporelle pour relever les défis complexes de l'analyse comportementale affective dans la nature.