Auteurs originaux : Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

Publié 2026-06-02✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous essayez de comprendre comment un ami se sent simplement en le regardant. Parfois, un sourire signifie qu'il est heureux ; d'autres fois, cela peut signifier qu'il est poli ou qu'il cache sa tristesse. Maintenant, imaginez essayer de faire cela avec un ordinateur, mais l'ordinateur ne reçoit qu'un instantané à un moment donné. C'est comme essayer de deviner l'intrigue d'un film en regardant une seule image — il est facile de se tromper.

Ce document présente un nouveau système appelé MSFERNet (Multi-Scale Facial Emotion Recognition Network) conçu pour résoudre ce problème. Considérez cela comme une « caméra intelligente » qui ne se contente pas de regarder un visage une seule fois, mais qui observe comment le visage change au fil du temps, tout comme un psychologue observant un patient pendant une séance.

Voici une décomposition de son fonctionnement, utilisant des analogies simples :

1. Le Problème : Les émotions sont un film, pas une photo

Les auteurs soulignent que les émotions ne sont pas statiques ; elles coulent et changent. Une personne peut commencer de manière neutre, devenir légèrement agacée, puis se calmer. La plupart des anciens systèmes informatiques sont comme des photographes qui prennent une seule photo et devinent l'humeur. Ce document soutient que pour vraiment comprendre quelqu'un, vous devez regarder le « film » de son visage.

2. La Solution : Une caméra à objectifs multiples (MSFERNet)

Le cœur de leur système est un nouveau type d'architecture d'IA qu'ils ont construit. Imaginez un détective essayant de résoudre une affaire.

L'objectif « Grand-angle » : Certaines parties du système regardent la vue d'ensemble (la forme globale du visage).
L'objectif « Zoom » : D'autres parties zooment sur des détails minuscules (le tressaillement d'une lèvre ou une ride sur le front).
La « Mémoire » (Apprentissage résiduel) : Tout comme un détective qui se souvient d'indices vus plus tôt dans la journée, ce système utilise des « blocs résiduels » pour se souvenir de ce qu'il a vu précédemment afin de ne pas perdre le fil de l'histoire en creusant plus profondément.
Le « Projecteur » (Mécanisme d'attention) : Le système possède un projecteur intégré (appelé CBAM) qui ignore l'arrière-plan (comme une pièce en désordre ou une fenêtre) et se concentre strictement sur le visage, mettant en évidence les parties les plus importantes.

3. Entraîner le cerveau : Apprendre par groupes

Pour enseigner à ce système, les chercheurs ne se sont pas contentés de lui montrer des images en disant « Ceci est joyeux ». Ils ont utilisé une technique appelée Apprentissage contrastif supervisé.

L'analogie : Imaginez un professeur montrant à un élève un tas de pommes rouges et un tas de pommes vertes. Au lieu de dire simplement « Rouge est rouge », le professeur dit : « Regarde à quel point ces pommes rouges sont similaires entre elles, et à quel point elles sont différentes des pommes vertes. »
En regroupant les émotions similaires et en éloignant les émotions différentes dans son « esprit », l'ordinateur apprend une image beaucoup plus claire de ce que chaque émotion représente réellement.

4. Simplifier le langage : Le système des trois couleurs

Les chercheurs ont réalisé que la vie réelle est complexe. Un ensemble de données standard comporte 7 ou 8 émotions différentes (Colère, Dégoût, Peur, Tristesse, Joie, Surprise, Neutre, etc.).

L'analogie : Ils ont décidé de simplifier cela en un système de « Feu de signalisation » pour leur application en temps réel :
- Vert : Positif (Joie)
- Jaune : Neutre
- Rouge : Négatif (Colère, Dégoût, Peur, Tristesse)
Ils ont délibérément laissé de côté la « Surprise » car, comme un rebondissement dans un film, elle peut tout signifier selon le contexte, ce qui la rend trop déroutante pour une analyse rapide.

5. L'outil en temps réel (RT-FER)

Ils ont construit une application conviviale appelée RT-FER.

Comment ça marche : Vous pouvez télécharger une vidéo ou utiliser votre webcam. Le système capture votre visage à chaque image, fait passer le processus à travers la « Caméra à objectifs multiples » et vous donne un score.
Le Score : Il traduit l'émotion en un nombre entre -1 et 1.
- -1 est purement négatif.
- 0 est neutre.
- +1 est purement positif.
Le Graphique : Pendant que la vidéo joue, le système dessine une courbe montrant comment votre humeur « suit les vagues » vers le haut et vers le bas au fil du temps.

6. Les Résultats : Rapide, Léger et Précis

L'équipe a testé son système sur des ensembles de données standards (comme FER13 et CK+).

Performance : Il a très bien réussi, atteignant environ 96,77 % de précision sur un ensemble de données et 81,08 % sur leur version simplifiée à 3 émotions.
Efficacité : La meilleure partie est que le système est « léger ». Il n'a que 2,37 millions de paramètres (considérez cela comme le nombre de règles que l'ordinateur doit mémoriser). Comparé à d'autres systèmes qui sont comme des camions lourds et lents, celui-ci est comme un vélo agile. Il est assez petit pour fonctionner sur des appareils ordinaires sans avoir besoin d'un supercalculateur.

7. Le bémol (Analyse des erreurs)

Les auteurs ont été honnêtes sur les défauts. Si les données d'entraînement contiennent de « mauvaises photos » — comme une photo avec un logo au lieu d'un visage, ou un visage couvert par un énorme filigrane — le système s'embrouille. C'est comme essayer d'apprendre à un enfant à reconnaître des chiens en utilisant des photos de chats avec des oreilles de chien dessinées dessus.

Résumé

En bref, ce document présente une IA intelligente et légère qui observe les visages comme un observateur humain, en cherchant les changements au fil du temps plutôt qu'un simple instantané. Elle simplifie les émotions complexes en un score clair de « Positif/Négatif/Neutre », ce qui en fait un outil utile pour suivre les changements émotionnels dans des vidéos en temps réel.

Résumé Technique : Un réseau multi-échelle avec apprentissage contrastif supervisé pour la reconnaissance faciale des émotions en temps réel

Énoncé du problème

La reconnaissance des émotions faciales (FER) en temps réel présente des défis importants, particulièrement dans les scénarios basés sur la vidéo où les états émotionnels évoluent de manière continue plutôt que discrète. Une difficulté primaire réside dans la haute variabilité inter-sujets des expressions faciales et l'ambiguïté des émotions (par exemple, un sourire peut indiquer le bonheur, la politesse ou le sarcasme selon le contexte). De plus, la recherche existante s'est largement concentrée sur la reconnaissance d'images statiques ou la classification par image unique, laissant une lacune dans la capacité à analyser et à surveiller les changements émotionnels sur des périodes de temps prolongées. Cette limitation entrave la compréhension globale de l'état psychologique d'un individu, ce qui est crucial pour des applications en psychologie et en conseil où le ratio d'experts par rapport aux patients est insuffisant.

Méthodologie

Les auteurs proposent un système en deux phases comprenant une architecture d'apprentissage profond pour l'extraction de caractéristiques et la classification, ainsi qu'une interface d'application en temps réel.

1. Architecture MSFERNet

Le cœur du système est MSFERNet (Multi-Scale Facial Expression Recognition Network), conçu pour remédier à la dégradation des caractéristiques et à la disparition du gradient, phénomènes courants dans les réseaux CNN séquentiels profonds. L'architecture incorpore :

Backbone : Il utilise les premières étapes d'un EfficientNet-B0 pré-entraîné pour extraire des caractéristiques sémantiques de bas et moyen niveau, réduisant ainsi la complexité computationnelle par rapport à l'utilisation du réseau complet.
Raffinement Résiduel : Les cartes de caractéristiques extraites passent par un bloc de raffinement contenant une convolution $3 \times 3$ , une normalisation par lots (Batch Normalization), une fonction ReLU et un Bloc Résiduel avec des connexions de saut (skip connections) pour préserver les correspondances d'identité et stabiliser le flux de gradient.
Extraction de Caractéristiques Multi-échelles : Le réseau emploie des branches de convolution parallèles avec des noyaux $3 \times 3$ $3 \times 3$ et $5 \times 5$ $5 \times 5$ .
- Étape 1 : Les branches sont combinées via une addition élément par élément.
- Étape 2 : Les branches sont concaténées par canaux pour préserver les informations complémentaires provenant de différents champs récepteurs.
Mécanisme d'Attention : Un Module d'Attention de Bloc Convolutionnel (CBAM) est appliqué après chaque étape multi-échelle pour accentuer séquentiellement les régions faciales informatives (attention de canal et spatiale) tout en supprimant le bruit de fond.
Tête de Classification : Les caractéristiques sont sous-échantillonnées, soumises à un pooling global, puis transmises à des couches entièrement connectées (128 et 64 unités) avec un dropout (0.3) pour prévenir le surapprentissage.
Apprentissage Contrastif Supervisé : Une tête de projection projette les caractéristiques dans un espace de plongement (embedding) normalisé. Le modèle est entraîné à l'aide d'une fonction de perte combinée :
$L = 1.0 \times L_{cross} + 0.1 \times L_{sup}$
Où $L_{cross}$ est la Perte d'Entropie Croisée Catégorielle et $L_{sup}$ est la Perte Contrastive Supervisée, conçue pour apprendre de meilleures représentations des caractéristiques émotionnelles en rapprochant les échantillons positifs (même classe) et en éloignant les échantillons négatifs dans l'espace de plongement.

2. Prétraitement et Modification du Jeu de Données

L'étude utilise les jeux de données FER13 et CK+. Pour s'aligner sur l'objectif d'aider les psychologues à identifier les états mentaux larges, les auteurs ont modifié le jeu de données standard FER13 à 7 classes en un système à 3 classes :

Positif : Dérivé de la classe 'Heureux' (Happy).
Négatif : Fusion de 'Colère' (Angry), 'Dégoût' (Disgust), 'Peur' (Fear) et 'Tristesse' (Sad).
Neutre : Conservé tel quel.
Note : La classe 'Surprise' a été exclue en raison de sa forte dépendance contextuelle et de sa tendance à évoquer des émotions mixtes.
Prétraitement : Les images ont été redimensionnées en $128 \times 128$ , et des augmentations standards (décalage, zoom, cisaillement, retournement) ont été appliquées. Les images corrompues ont été filtrées.

3. Système RT-FER

Une application conviviale nommée RT-FER a été développée pour démontrer la surveillance en temps réel. Elle capture des vidéos en direct ou traite des vidéos téléchargées, extrait les visages des images, et les injecte dans le MSFERNet entraîné. Le système produit :

Prédiction de l'Émotion : La classe prédite avec les scores de confiance.
Score Émotionnel : Un score continu calculé comme $Score = p_{positif} - p_{négatif}$ (mappant le Négatif à -1, le Neutre à 0, le Positif à 1).
Visualisation : Une interface graphique affiche le flux vidéo aux côtés d'un graphique en temps réel suivant le score émotionnel.

Contributions Clés

Architecture MSFERNet : Proposition d'un réseau multi-échelle basé sur l'attention qui intègre le transfert d'apprentissage, les mécanismes résiduels et l'apprentissage contrastif supervisé.
Adaptation du Jeu de Données : Création d'un jeu de données FER13 modifié à 3 classes adapté à l'analyse des états psychologiques, répondant au manque de jeux de données standards pour les catégories émotionnelles larges.
Application RT-FER : Développement d'une interface graphique fonctionnelle permettant la surveillance émotionnelle en temps réel et la visualisation des changements émotionnels au fil du temps, incluant un lecteur vidéo pour observer les changements émotionnels induits par le contexte.

Résultats Expérimentaux

Le modèle a été évalué sur FER13 (7 classes originales et 3 classes modifiées) et CK+ avec une répartition train-test de 80:10.

Performance :
- FER13 (7 classes) : 66,73 % de précision.
- FER13 (3 classes) : 81,08 % de précision.
- CK+ : 96,77 % de précision.
Efficacité : Le modèle contient seulement 2,37 millions de paramètres entraînables, ce qui le rend nettement plus efficace en ressources que les modèles de pointe comme AlexNet (62,30 M) ou VGGNet (84,00 M).
Impact de la Perte Contrastive Supervisée : L'inclusion de $L_{sup}$ a amélioré la précision sur tous les jeux de données (par exemple, FER13 7-classes est passé de 64,19 % à 66,73 % ; CK+ est passé de 95,56 % à 96,77 %).
Comparaison : Le MSFERNet proposé a surpassé plusieurs modèles SOTA existants sur les jeux de données FER13 et CK+ tout en maintenant un nombre de paramètres inférieur.

Signification et Limites

L'article affirme que le système proposé comble le fossé entre la reconnaissance d'émotions statiques et la surveillance continue de l'état psychologique. En fournissant un outil pour suivre les changements émotionnels au fil du temps, il offre une aide potentielle aux psychologues pour obtenir des informations supplémentaires sur l'état émotionnel d'un sujet, allégeant potentiellement la charge de l'observation manuelle.

Les auteurs reconnaissent modestement les limites, notant que malgré le prétraitement, les données d'entraînement contenaient des échantillons erronés (par exemple, des images avec des logos ou des filigranes) qui ont impacté l'entraînement. Ils soulignent également que la reconnaissance en temps réel reste difficile en raison des variations de la qualité d'image et de l'ambiguïté inhérente aux expressions faciales. Les travaux concluent que bien que les résultats actuels soient satisfaisants, des améliorations futures pourraient être obtenues en s'entraînant sur des jeux de données du monde réel plus vastes et en incorporant des mécanismes d'attention plus puissants.

A Multiscale Network with Supervised Contrastive Learning for Real-Time Facial Emotion Recognition