Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Cette proposition de solution au 10e défi ABAW présente un cadre multimodal robuste intégrant une attention croisée sécurisée et un dropout de modalité pour surmonter les occlusions, les données manquantes et les déséquilibres de classes, atteignant ainsi une précision de 60,79 % sur le jeu de données Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre les émotions d'une personne dans une foule bruyante et mouvementée. Parfois, elle tourne la tête, parfois un objet cache son visage, et parfois, vous ne voyez que sa silhouette. C'est exactement le défi que relève cette équipe de chercheurs pour le 10e défi ABAW (Analyse du comportement affectif dans la nature).

Voici une explication simple de leur solution, imagée comme une équipe de détectives très bien entraînés.

1. Le Problème : Un monde imparfait

Dans les films ou les laboratoires, les gens sourient face à une caméra parfaite. Mais dans la vraie vie ("in-the-wild"), c'est le chaos :

  • Le visage est caché (par une main, un masque, ou parce que la personne regarde ailleurs).
  • La lumière est mauvaise.
  • Les émotions sont rares : Il y a beaucoup plus de gens "neutres" ou "tristes" que de gens "en colère" ou "surpris" dans les données. C'est comme chercher une aiguille dans une botte de foin, mais l'aiguille change de forme.

2. La Solution : Une équipe de deux détectives (Multimodalité)

Au lieu de compter sur un seul détective (juste la vue), l'équipe a créé un système avec deux experts qui travaillent ensemble :

  • Le Détective Visuel (Les Yeux) : Il regarde les expressions du visage. Il utilise un cerveau artificiel très puissant appelé BEiT-large, entraîné sur des milliers de photos pour reconnaître les sourires, les froncements de sourcils, etc.
  • Le Détective Auditif (Les Oreilles) : Il écoute la voix, le ton, et les soupirs. Il utilise un autre cerveau appelé WavLM-large. Même si vous ne voyez pas le visage, le ton de la voix peut révéler la peur ou la joie.

3. L'Innovation Magique : Le "Filet de Sécurité" (Safe Cross-Attention)

C'est ici que leur idée est la plus brillante.
Imaginez que le Détective Visuel s'endort ou que son champ de vision est totalement bloqué. Dans un système normal, tout le monde panique et l'ordinateur fait une erreur.

Ici, ils ont installé un mécanisme de sécurité :

  • Si le visage est caché, le système dit : "Pas de panique ! Le Détective Auditif prend le relais à 100 %."
  • Ils ont entraîné le système à simuler des pannes pendant l'apprentissage (en cachant artificiellement des visages). C'est comme un pompier qui s'entraîne dans le noir pour savoir comment agir si la lumière s'éteint.
  • Résultat : Même si vous ne voyez rien, le système reste précis grâce à la voix.

4. L'Entraînement : Apprendre à ne pas être biaisé

Le jeu de données (Aff-Wild2) est déséquilibré : il y a des milliers d'exemples de "neutre" et très peu de "peur".

  • Le problème : Un élève paresseux dirait : "Je vais juste répondre 'neutre' à chaque fois, j'aurai raison 80 % du temps !"
  • La solution (Focal Loss) : Les chercheurs ont créé une règle de jeu spéciale qui récompense l'élève quand il a raison sur les cas difficiles (les émotions rares) et le punit s'il se repose sur les cas faciles. Cela force le système à vraiment apprendre les émotions rares.

5. La Réponse Finale : Le Vote Doux (Sliding Window)

Les émotions ne sont pas des photos fixes, elles sont comme une rivière qui coule. Une personne ne passe pas de "heureux" à "triste" en une fraction de seconde.

  • Au lieu de juger chaque image individuellement (ce qui crée des sauts bizarres dans le résultat), le système regarde une fenêtre glissante (comme un film qui avance de quelques images à la fois).
  • Il prend la moyenne des avis de cette fenêtre pour lisser le résultat. C'est comme si vous demandiez à un groupe d'amis de deviner l'émotion d'un film, et vous preniez la moyenne de leurs réponses pour éviter les erreurs d'un seul individu.

Le Résultat

Grâce à cette combinaison de deux sens (vue + ouïe), d'un filet de sécurité pour les moments où la vue manque, et d'un entraînement intelligent pour les émotions rares, leur système a atteint une précision de 60,79 % et un score F1 de 0,5029.

En résumé : Ils ont créé un système qui ne panique pas quand il ne voit pas le visage, qui écoute la voix pour compenser, et qui est assez malin pour ne pas se fier uniquement aux émotions les plus courantes. C'est un pas de géant vers des machines capables de comprendre les humains dans la vraie vie, avec tout son chaos.