HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Défi : Comprendre les émotions dans le chaos du monde réel

Imaginez que vous essayez de deviner l'humeur d'une personne dans une foule bruyante, sous un soleil éclatant ou dans l'obscurité, alors qu'elle tourne la tête et cache parfois son visage. C'est extrêmement difficile ! C'est exactement le défi que l'équipe HSEmotion a relevé lors de la 10ème édition du concours ABAW (une sorte de "Olympiades" pour les ordinateurs qui doivent comprendre les émotions humaines).

Leur objectif ? Créer un système capable de lire les visages, d'estimer l'intensité des émotions (comme la joie ou la colère) et même de détecter la violence dans des vidéos, le tout en temps réel.

🛠️ La Solution : Le "Super-Détective" à deux niveaux

Au lieu de construire une usine géante et complexe pour analyser chaque image, l'équipe a conçu une approche intelligente et rapide, un peu comme un détective qui utilise deux méthodes :

1. Le "Gardien" (Le modèle pré-entraîné)

Imaginez un expert en émotions qui a lu des millions de photos de visages avant le concours. Il est très rapide et très sûr de lui.

Comment ça marche ? Quand l'ordinateur voit un visage, il demande d'abord à ce "Gardien" : "Tu es sûr à 90% que c'est de la joie ?".
La règle : Si le Gardien est très confiant (au-dessus d'un seuil de sécurité), il a raison. On utilise directement sa réponse. C'est comme si un professeur de maths vous donnait la réponse tout de suite si vous posez une question qu'il connaît par cœur.

2. Le "Stagiaire Intelligent" (Le MLP)

Si le Gardien hésite (parce que le visage est de travers, ou l'expression est subtile), il passe le relais à un "Stagiaire" (un petit réseau de neurones) qui a été spécifiquement entraîné sur les données du concours.

L'astuce : Ce Stagiaire est très bon pour corriger les erreurs. Par exemple, dans les vidéos, il y a beaucoup plus de visages "neutres" que de visages "en colère". Le Stagiaire apprend à ne pas être biaisé et à donner une chance égale aux émotions rares.

3. Le "Lissage" (La magie du temps)

Les émotions ne sont pas des photos fixes, elles sont comme une rivière qui coule. Parfois, un cadre vidéo peut dire "Triste" et le suivant "Joyeux" à cause d'un reflet ou d'un mouvement brusque.

L'analogie : Imaginez que vous regardez une vidéo au ralenti. Au lieu de paniquer à chaque changement, l'équipe utilise une fenêtre glissante. C'est comme regarder une série de photos et dire : "Bon, sur les 5 dernières images, il a l'air plutôt triste, donc je vais dire qu'il est triste". Cela lisse les erreurs et rend la prédiction stable, comme une vidéo fluide au cinéma.

🎬 Les 4 Missions Spéciales

L'équipe a appliqué cette logique à quatre tâches différentes :

Reconnaissance des expressions (EXPR) : Identifier 8 émotions de base (joie, colère, peur, etc.).
- Résultat : En combinant le Gardien confiant et le Stagiaire ajusté, ils ont battu tous les records précédents. C'est comme si un détective amateur avait battu les meilleurs agents du FBI grâce à une méthode simple mais efficace.
Estimation de la Valence et de l'Arousal (VA) : Au lieu de dire "Il est triste", on mesure deux axes :
- Valence : Est-ce positif ou négatif ? (Comme un thermomètre du bonheur).
- Arousal : Est-ce calme ou excité ? (Comme un compteur d'énergie).
- Résultat : Leur système a réussi à dessiner une carte très précise de l'état émotionnel, bien mieux que les méthodes lourdes et complexes des années passées.
Détection des Unités d'Action (AU) : C'est le niveau "Expert". Il s'agit de repérer 12 micro-mouvements précis (comme un sourcil qui se lève ou une bouche qui tremble).
- Résultat : En mélangeant les indices visuels et en ajustant les seuils de décision, ils ont atteint un niveau de précision très élevé, prouvant que l'on n'a pas besoin d'une super-ordinateur pour voir les détails.
Détection de la Violence (VD) : Ici, on ne regarde pas juste le visage, mais tout le corps et l'action.
- L'approche : Ils ont utilisé un modèle appelé ConvNeXt (un expert en vision par ordinateur) qui regarde chaque image, puis un petit module temporel (TCN) qui regarde comment les images bougent les unes par rapport aux autres.
- Résultat : C'est comme si un gardien de sécurité regardait une caméra. Il ne se fie pas à un seul mouvement, mais à la séquence globale. Leur système a détecté la violence beaucoup mieux que les systèmes précédents, en utilisant une architecture plus légère et plus rapide.

🏆 Pourquoi c'est important ?

Le plus beau dans cette histoire, c'est la simplicité.
Souvent, les chercheurs disent : "Il faut un modèle géant, des milliards de paramètres et des mois de calcul pour avoir de bons résultats."

L'équipe HSEmotion a dit : "Non, regardons ce qui fonctionne déjà, ajustons-le intelligemment, et utilisons un peu de bon sens pour lisser les erreurs."

Analogie finale : C'est comme si tout le monde essayait de construire un robot géant pour porter un sac de courses, alors qu'ils auraient pu juste utiliser un chariot à roulettes bien entretenu. Leur méthode est rapide, efficace, peu coûteuse et fonctionne très bien dans la vraie vie (avec le bruit, la lumière changeante, etc.).

En résumé, ils ont prouvé que pour comprendre les émotions humaines, on n'a pas toujours besoin de la technologie la plus lourde, mais plutôt de la méthode la plus intelligente.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article présente les résultats de l'équipe HSEmotion lors de la 10e édition du défi ABAW (Affective Behavior Analysis in-the-Wild). L'objectif est d'analyser le comportement affectif humain dans des conditions réelles et non contraintes (« in-the-wild »), ce qui pose des défis majeurs tels que les occlusions, les variations d'éclairage et de pose, les décalages de domaine (domain shifts) et le bruit dans les annotations.

Le papier se concentre sur quatre tâches spécifiques du défi :

Reconnaissance d'expressions faciales (FER/EXPR) : Classification d'images par image (frame-wise) en 8 émotions de base.
Estimation de la Valence-Arousal (VA) : Prédiction continue de la valence et de l'activation émotionnelle.
Détection d'Unités d'Action (AU) : Classification multi-étiquettes de 12 micro-expressions faciales.
Détection de Violence Fine (Fine-Grained Violence Detection - VD) : Classification vidéo de scènes violentes ou non violentes, nécessitant l'analyse du mouvement corporel et du contexte global.

2. Méthodologie Proposée

L'équipe propose une approche pragmatique et légère, privilégiant l'efficacité computationnelle sans sacrifier la précision.

A. Tâches d'Analyse Faciale (EXPR, VA, AU)

Le pipeline repose sur l'extraction d'embeddings faciaux via des modèles pré-entraînés légers (basés sur EfficientNet et DDAMFN de la bibliothèque EmotiEffLib), pré-entraînés sur le jeu de données AffectNet.

Architecture de classification :
- Les embeddings extraits sont alimentés dans un Perceptron Multicouche (MLP) simple (une couche cachée pour EXPR/AU, sans couche cachée pour VA).
- Ajustement des Logits (GLA) : Pour pallier le déséquilibre sévère des classes dans AffWild2, une méthode d'ajustement généralisé des logits (Generalized Logit Adjustment) est utilisée pour calibrer les biais du classifieur.
- Filtrage par Confiance : Si le modèle pré-entraîné affiche une confiance élevée (probabilité > seuil $p_0$ , typiquement 0.8-0.9), sa prédiction est utilisée directement. Sinon, la prédiction du MLP entraîné sur AffWild2 est utilisée.
- Lissage Temporel : Les prédictions au niveau de l'image sont lissées via une fenêtre glissante de taille fixe pour réduire le bruit et assurer la cohérence temporelle.
- Fusion Multimodale (Optionnelle) : Des features audio (via wav2vec 2.0) peuvent être fusionnées tardivement avec les features visuelles via un MLP pondéré.

B. Détection de Violence (VD)

Contrairement aux tâches faciales, la violence nécessite l'analyse de l'image complète (mouvement du corps, interactions).

Backbone Visuel : Utilisation de ConvNeXt-T (pré-entraîné sur ImageNet-1K) pour extraire des caractéristiques spatiales par image (768 dimensions).
Modélisation Temporelle : Les features sont traitées par une TCN (Temporal Convolutional Network) à 5 couches avec dilatation ou un BiLSTM.
Fusion Multimodale (Squelette) : Une variante multimodale intègre des features de squelette extraites par MediaPipe Pose (coordonnées, vitesses, distances d'interaction), fusionnées via un mécanisme d'attention croisée (cross-attention) avant d'être traitées par un BiLSTM.
Entraînement : Utilisation de la perte d'entropie croisée pondérée pour compenser le déséquilibre des classes (violence vs non-violence).

3. Contributions Clés

Pipeline Hybride Efficace : Combinaison de modèles pré-entraînés robustes (pour l'extraction de features) et de classifieurs légers (MLP) entraînés spécifiquement sur les données du défi, optimisés par GLA.
Stratégie de Filtrage Intelligent : L'utilisation conditionnelle des prédictions du modèle pré-entraîné (lorsqu'ils sont très confiants) permet de réduire l'erreur sur les cas faciles tout en s'appuyant sur un modèle finement ajusté pour les cas ambigus.
Simplicité et Reproductibilité : Contrairement aux architectures complexes (Transformers massifs, fusions multimodales lourdes), l'approche proposée est computationnellement efficace, facile à reproduire et a été migrée vers PyTorch (contrairement aux travaux précédents de l'équipe en TensorFlow).
Validation Rigoureuse : Une analyse ablation complète montre que le lissage temporel et l'ajustement des seuils sont aussi critiques que le choix du backbone.

4. Résultats Expérimentaux

Les résultats sur le jeu de validation officiel d'AffWild2 et DVD démontrent des performances supérieures aux bases de référence (baselines) et aux meilleures méthodes des années précédentes.

Reconnaissance d'Expressions (EXPR) :
- Le pipeline combinant EmotiEffNet, GLA, filtrage et lissage atteint un F1-score macro de 47,40 % et une exactitude de 57,98 %.
- Cela surpasse significativement la baseline VGGFACE (25,0 % F1) et les méthodes multimodales complexes de l'année précédente (ex: MAE+Transformer à 55,55 % F1, bien que l'équipe HSEmotion ait atteint 47,40 % avec une approche plus simple, notant que le tableau compare différentes configurations et que leur meilleure configuration multimodale atteint 47,40 %). Note : Le tableau 1 montre que leur meilleure configuration (Audio/Video + GLA + Filtering + Smoothing) atteint 47,40% F1, surpassant la baseline de 25% et rivalisant avec des méthodes plus lourdes.
Estimation Valence-Arousal (VA) :
- Utilisation de MT-DDAMFN avec MLP et lissage.
- Résultats : CCC Valence = 0,510, CCC Arousal = 0,615, et CCC Moyen = 0,562.
- Ces résultats surpassent largement la baseline ResNet-50 (0,22) et sont compétitifs avec des architectures plus lourdes.
Détection d'Unités d'Action (AU) :
- Combinaison de logits et d'embeddings avec lissage et ajustement des seuils.
- F1-score macro de 54,7 %, comblant l'écart avec les meilleures méthodes de l'année précédente (56-58 %) tout en restant beaucoup plus simple.
Détection de Violence (VD) :
- Le modèle ConvNeXt-T + TCN atteint un Macro F1 de 0,783 sur le jeu de données DVD.
- Cela représente une amélioration de plus de 0,14 par rapport à la baseline du défi ABAW-9 (ResNet-50 + BiLSTM à 0,640).
- L'ajout de features de squelette (skeleton) améliore légèrement la détection de la classe « non-violente » mais n'augmente pas significativement le score global par rapport au flux RGB seul.

5. Signification et Conclusion

Ce travail démontre que pour les tâches d'analyse affective « in-the-wild », une approche pragmatique et calibrée peut rivaliser avec des architectures profondes complexes.

Efficacité : La méthode propose un compromis optimal entre précision, robustesse au bruit et coût computationnel, la rendant adaptée aux applications temps réel (sécurité routière, interaction homme-machine).
Gestion du Déséquilibre : L'accent mis sur l'ajustement des biais (GLA) et le filtrage par confiance est crucial pour traiter les jeux de données déséquilibrés comme AffWild2.
Impact : En prouvant qu'un backbone 2D fort (ConvNeXt) couplé à une modélisation temporelle légère (TCN) suffit pour la détection de violence, l'article remet en question la nécessité systématique de modèles 3D coûteux pour ces tâches.

L'équipe HSEmotion a également rendu son code source public, facilitant la reproduction des résultats et l'adoption de ces techniques par la communauté de recherche.