Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Défi : Attraper un "Flash" Invisible

Imaginez que vous essayez de voir un papillon qui bat des ailes à toute vitesse dans une pièce sombre. C'est à peu près ce que c'est que de détecter les micro-expressions.

Ce sont de toutes petites expressions faciales qui apparaissent et disparaissent en une fraction de seconde (moins d'une seconde !). Elles révèlent nos vrais sentiments (peur, colère, joie) même quand nous essayons de les cacher. Le problème, c'est que les ordinateurs actuels sont comme des caméras de surveillance lentes : ils ratent souvent ces "flashs" rapides ou se perdent dans le bruit ambiant.

💡 La Solution : Une Équipe de Détectives en Duo

Les auteurs de cette étude (Mingjie Zhang et son équipe) ont décidé de ne pas utiliser un seul détective, mais d'en créer deux qui travaillent ensemble. C'est ce qu'ils appellent un réseau à deux branches.

Voici comment cela fonctionne, avec une analogie culinaire :

1. Le Chef "Géant" (La branche ResNet)

Imaginez un chef cuisinier qui regarde le plat entier sur la table. Il ne s'occupe pas des détails minuscules, mais il comprend la structure globale, l'ambiance générale du visage.

Son rôle : Analyser le visage dans son ensemble pour ne rien manquer de la "grande image".
Son super-pouvoir : Il utilise une technique spéciale (les "connexions résiduelles") qui lui permet de ne jamais oublier ce qu'il a vu, même si le plat est très complexe. Cela évite que le cerveau du chef ne se "noie" dans trop d'informations.

2. Le Chef "Loup-Garou" (La branche Inception)

Maintenant, imaginez un autre chef, très pointilleux, qui porte des lunettes de grossissement. Il ne regarde que les détails précis : un coin de bouche qui tremble, un sourcil qui se lève légèrement.

Son rôle : Zoomer sur les zones spécifiques du visage (les yeux, la bouche, les joues) là où les micro-expressions se cachent vraiment.
Son super-pouvoir : Il est capable de voir des choses à différentes échelles en même temps, comme si il pouvait regarder une photo en entier et en même temps zoomer sur un grain de poussière.

3. Le Chef "Sommelier" (La Fusion et l'Attention)

Avoir deux chefs qui travaillent séparément ne suffit pas. Il faut quelqu'un pour réunir leurs avis. C'est là qu'intervient le module de fusion avec attention.

L'analogie : Imaginez un sommelier expert qui écoute les deux chefs. Si le "Chef Géant" dit "C'est un plat triste" et le "Chef Loup-Garou" dit "Attends, il y a un détail de colère ici", le sommelier pondère les avis.
Il décide : "Ok, pour ce moment précis, je vais faire plus confiance au détail de la bouche qu'au visage global."
Cela permet au système de se concentrer intelligemment sur les zones importantes et d'ignorer le bruit (comme un fond flou ou un mouvement inutile).

🧪 L'Expérience : Le Test de la Vérité

Les chercheurs ont testé leur invention sur une base de données célèbre appelée CASME II, qui contient des milliers de vidéos de micro-expressions.

Le résultat : Leur équipe de deux chefs + le sommelier a obtenu un score de 74,67 % de réussite.
La comparaison : C'est comme si, dans un concours de cuisine, ils avaient battu les anciens champions (comme la méthode "LBP-TOP") avec une avance confortable. Ils ont même dépassé d'autres méthodes très récentes et complexes.

Pourquoi est-ce si bien ?
Avant, les ordinateurs devaient regarder toute la vidéo, ce qui prenait du temps et de l'énergie. Ici, en se concentrant uniquement sur les moments clés (le début et le sommet de l'expression) et en utilisant cette double approche, ils sont plus rapides et plus précis.

🚀 Et pour la suite ?

Bien que ce soit une grande réussite, les chercheurs reconnaissent qu'il reste du travail :

Plus de données : Ils ont besoin de plus de "recettes" (vidéos) pour entraîner leurs chefs, car les micro-expressions sont rares.
Plus de généralisation : Ils veulent que leur système fonctionne aussi bien sur des gens qu'il n'a jamais vus auparavant, pas seulement sur ceux de la base de données.
Application réelle : L'objectif final est de pouvoir utiliser cela dans la vraie vie, par exemple pour aider les enquêteurs à détecter le mensonge ou pour améliorer la communication en entreprise.

En résumé

Cette paper propose une méthode intelligente qui combine la vue d'ensemble et le détail extrême, orchestrée par un système qui sait où regarder. C'est comme passer d'une simple caméra de surveillance à une équipe d'experts humains ultra-attentifs, capables de lire les pensées à travers un simple clignement de paupière.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance des micro-expressions faciales (des mouvements faciaux involontaires, brefs et subtils révélant des émotions réelles) constitue un défi majeur pour les méthodes de vision par ordinateur actuelles. Les difficultés principales incluent :

La nature transitoire et subtile des micro-expressions, qui les rend difficiles à capturer par les méthodes basées sur le flux optique traditionnelles.
Le manque de données d'entraînement, les jeux de données disponibles étant souvent petits et déséquilibrés.
L'extraction de caractéristiques fines, nécessaire pour distinguer des nuances émotionnelles très légères sans être perturbé par le bruit ou les régions faciales non pertinentes.
Les méthodes existantes, qu'elles soient basées sur des caractéristiques manuelles (comme LBP-TOP) ou sur l'apprentissage profond, souffrent souvent de redondance d'information (en utilisant des séquences vidéo complètes) ou d'une difficulté à se concentrer sur les zones d'intérêt spécifiques.

2. Méthodologie

Les auteurs proposent un cadre de reconnaissance basé sur une extraction de caractéristiques à double branche (Dual-branch) couplée à un module de fusion adaptatif. L'architecture globale se compose de trois éléments clés :

Branche Globale (ResNet) :
- Utilise une architecture ResNet (spécifiquement une version optimisée de 12 couches, voir section ablation) pour extraire les caractéristiques globales du visage.
- L'objectif est d'éviter le problème de la disparition du gradient et de la dégradation du réseau grâce aux connexions résiduelles (skip connections), permettant d'apprendre des représentations de haut niveau.
Branche Locale (Inception) :
- Utilise un réseau de type Inception pour se concentrer sur les points clés locaux du visage (définis par les Unités d'Action ou AU du système CASME II).
- Cette branche vise à capturer les détails fins et à supprimer les interférences des régions non pertinentes grâce à sa capacité d'extraction multi-échelle.
Module de Fusion Adaptatif (CAFFM - Convolutional Block Attention Feature Fusion Module) :
- Les caractéristiques globales ( $F_G$ ) et locales ( $F_L$ ) sont fusionnées via un module basé sur le mécanisme d'attention CBAM (Convolutional Block Attention Module).
- Ce module calcule des poids d'attention pour les canaux et les positions spatiales, permettant au modèle de s'adapter dynamiquement pour mettre l'accent sur les régions salientes (mouvements subtils) et de fusionner efficacement les deux branches.
- Le processus implique plusieurs étapes de concaténation, d'activation ReLU, d'ajout résiduel et de modules CBAM successifs pour affiner les caractéristiques avant la classification.

Prétraitement des données :

Utilisation du jeu de données CASME II.
Détection et recadrage du visage via un modèle DNN pré-entraîné.
Redimensionnement des images à 231x282 pixels.
Regroupement des catégories "Peur" et "Tristesse" dans la catégorie "Autres" en raison du manque d'échantillons.

3. Contributions Clés

Architecture à double branche : Proposition d'un modèle intégrant ResNet (pour le contexte global) et Inception (pour les détails locaux), tous deux renforcés par des mécanismes d'attention (CBAM) pour se concentrer sur les régions saillantes.
Module de fusion CBAM : Conception d'un module de fusion de caractéristiques basé sur l'attention pour résoudre le manque d'attention efficace dans les modèles à double branche, permettant une intégration dynamique des caractéristiques globales et locales.
Validation expérimentale robuste : Démonstration de la supériorité de la méthode sur le jeu de données CASME II, avec une précision de 74,67 %, surpassant les méthodes de l'état de l'art.
Analyse d'ablation : Identification que, contrairement à la croyance commune, l'augmentation de la profondeur du réseau (ResNet 18 ou 34) sur ce petit jeu de données entraîne une baisse de performance (surapprentissage), justifiant le choix d'une architecture ResNet plus légère (12 couches).

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données CASME II (255 échantillons).

Performance globale : La méthode proposée atteint une précision de 74,67 %.
Comparaison avec l'état de l'art :
- Surpasse LBP-TOP de 11,26 %.
- Surpasse MSMMT de 3,36 %.
- Surpasse Later de 3,99 % et SLSTT-Mean de 0,88 %.
- Se place juste derrière la méthode AMAN (75,4 %), qui utilise une amplification des micro-expressions (la méthode proposée utilise des données brutes sans amplification).
Métriques supplémentaires : Le modèle obtient un UF1 de 0,741 et un UAR de 0,748.
Analyse des erreurs : La matrice de confusion révèle que certaines confusions persistent (ex: "Surprise" et "Répression") en raison de la similarité des Unités d'Action (mouvements des coins de la bouche), ce qui explique une partie des erreurs de classification.
Efficacité : Le modèle maintient un débit d'images par seconde (FPS) d'environ 97,3, répondant aux exigences temps réel.

5. Signification et Perspectives

Signification : Ce travail démontre qu'une approche hybride combinant l'extraction de caractéristiques globales et locales, renforcée par un mécanisme d'attention adaptatif, est particulièrement efficace pour la reconnaissance des micro-expressions, même avec des jeux de données limités. Elle offre une alternative robuste aux méthodes nécessitant une amplification artificielle des signaux.
Travaux futurs : Les auteurs prévoient de :
- Construire des jeux de données micro-expressifs à grande échelle et de haute qualité.
- Développer des modèles avec une meilleure capacité de généralisation pour la reconnaissance inter-jeux de données (cross-dataset).
- Concevoir des algorithmes intégrant à la fois la détection et la reconnaissance des micro-expressions pour un déploiement pratique.

En résumé, cette étude propose une solution architecturale innovante qui surmonte les limitations des approches traditionnelles en se concentrant sur la complémentarité des échelles de caractéristiques et l'attention sélective, offrant un état de l'art compétitif pour la reconnaissance des micro-expressions.