AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective Invisible : Comment AULLM++ lit les micro-émotions

Imaginez que vous essayez de deviner ce qu'une personne ressent en regardant son visage. Parfois, elle sourit largement (c'est facile). Mais parfois, elle cache une émotion très forte : une colère ou une tristesse qui ne dure qu'une fraction de seconde. C'est ce qu'on appelle une micro-expression.

C'est comme chercher une aiguille dans une botte de foin, mais l'aiguille est invisible à l'œil nu et la botte de foin est remplie de bruit (la lumière, les cheveux, le fond de la photo).

Jusqu'à présent, les ordinateurs étaient très mauvais pour ça. Ils se faisaient facilement piéger par le bruit ou confondaient un petit mouvement de sourcil avec un autre.

La solution proposée par les chercheurs (AULLM++) ? Au lieu de donner un simple "œil" à l'ordinateur, ils lui ont donné un cerveau de détective capable de raisonner, comme un humain.

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le Problème : Le "Bruit" étouffe le "Signal"

Les micro-expressions sont si faibles que les méthodes classiques (qui regardent juste les pixels) les confondent avec des ombres ou des mouvements de tête.

L'analogie : C'est comme essayer d'entendre un chuchotement dans une discothèque. Si vous utilisez juste un micro (la caméra), vous n'entendez que la musique forte (le bruit de fond).

2. La Solution : Trois Super-Pouvoirs

Les chercheurs ont créé un système en trois étapes pour aider l'ordinateur à devenir un expert :

A. Le Microscope Magique (MGE-EFP)
Avant de réfléchir, il faut voir clairement. Ce module agit comme un filtre spécial.

Ce qu'il fait : Il sépare les détails fins (les petits tremblements des muscles) du contexte global (la forme du visage).
L'analogie : Imaginez un photographe qui enlève le flou et le grain de l'image pour ne garder que le trait précis du mouvement. Il transforme ces détails flous en un "mot-clé" net que l'ordinateur peut comprendre.

B. Le Manuel d'Anatomie (R-AUGNN)
Les muscles du visage ne bougent pas au hasard. Si vous êtes triste, certains muscles se contractent ensemble, d'autres se détendent. C'est une règle physique.

Ce qu'il fait : Le système intègre un "manuel d'anatomie" (les règles FACS) pour savoir quels muscles travaillent en équipe.
L'analogie : C'est comme si vous appreniez à un détective que "quand le nez plisse, c'est souvent en même temps que la bouche se tord". Au lieu de deviner, il utilise cette logique pour comprendre la scène.

C. Le Grand Philosophe (Le Modèle de Langage - LLM)
C'est ici que la magie opère. Au lieu de simplement classer l'image, l'ordinateur utilise un Grand Modèle de Langage (comme une version très intelligente de ChatGPT).

Ce qu'il fait : Il reçoit les "indices visuels" (du microscope) et les "règles anatomiques" (du manuel), puis il raisonne pour conclure : "Ah ! Vu que le muscle A bouge et que le muscle B réagit ainsi, c'est forcément de la colère !"
L'analogie : C'est la différence entre un robot qui dit "J'ai vu un mouvement" et un détective humain qui dit "J'ai vu un mouvement, je connais les règles du corps humain, donc je suis sûr à 99% que c'est de la colère".

3. L'Entraînement : Le Jeu des "Et si..." (CCR)

Pour que ce détective ne se trompe pas quand il change de lieu (par exemple, passer d'un studio de cinéma à la rue), les chercheurs l'ont entraîné avec une technique spéciale appelée Régularisation de Cohérence Contrefactuelle.

Ce qu'il fait : Pendant l'entraînement, on dit à l'ordinateur : "Et si ce muscle ne bougeait pas ? Que changerais-tu dans ta conclusion ?"
L'analogie : C'est comme un professeur qui demande à un élève : "Si tu enlevais la lumière du soleil de cette photo, est-ce que tu penserais toujours que c'est le matin ?". Cela force l'élève à se concentrer sur l'essentiel (le visage) et non sur les détails superficiels (la lumière). Cela rend le système très robuste.

🏆 Le Résultat : Pourquoi c'est génial ?

Les tests montrent que AULLM++ est bien meilleur que les anciennes méthodes, surtout dans deux cas difficiles :

Quand c'est très flou : Il arrive à voir ce que les autres ratent.
Quand on change de contexte : Si on l'entraîne sur des vidéos asiatiques et qu'on le teste sur des vidéos européennes, il ne panique pas. Il comprend la logique humaine, qui est universelle, et ignore les différences de caméra ou de culture.

En résumé

AULLM++, c'est comme donner à un ordinateur un stéthoscope (pour entendre les muscles), un livre d'anatomie (pour comprendre les règles) et un grand philosophe (pour raisonner). Au lieu de juste "regarder" les images, il les comprend et les déduit, ce qui lui permet de lire les émotions les plus cachées de l'humanité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection des Unités d'Action (AU) dans les micro-expressions faciales vise à identifier les activations musculaires localisées, subtiles et transitoires, essentielles pour décoder les signaux affectifs fins. Cependant, cette tâche se heurte à trois limitations majeures des méthodes existantes :

Faible rapport signal/bruit : Les micro-expressions sont d'une intensité extrêmement faible, rendant les preuves visuelles discriminatives vulnérables au bruit de fond (identité du sujet, éclairage, mouvements de tête).
Traitement grossier des caractéristiques : Les méthodes traditionnelles (réseaux 3D-CNN, opérateurs spatio-temporels) tendent à lisser les détails fins ou à se fier à des informations visuelles de faible densité, ce qui est inadapté à la nécessité de représentations à grain fin.
Négligence des corrélations inter-AU : Les approches actuelles traitent souvent les AU comme des tâches de classification indépendantes, ignorant les relations anatomiques de synergie ou d'inhibition mutuelle entre les muscles, ce qui limite la capacité à interpréter des combinaisons complexes.

L'objectif est donc de passer d'une simple extraction de caractéristiques visuelles à un processus de raisonnement logique combinant preuves visuelles et priors structurels.

2. Méthodologie : Le Framework AULLM++

L'auteur propose AULLM++, un cadre orienté vers le raisonnement qui intègre un Grand Modèle de Langage (LLM) pour guider la prédiction. L'architecture décompose la tâche en trois étapes synergiques :

A. Construction de la Preuve Visuelle (MGE-EFP)

Pour surmonter le faible rapport signal/bruit, un Projecteur de Fusion de Preuves Multi-Granularité (MGE-EFP) est conçu :

Il extrait et sépare les caractéristiques de moyen niveau (textures locales à haute fréquence, changements de bordure musculaire) des caractéristiques de haut niveau (sémantique globale).
Un opérateur de Laplacien différentiable est utilisé pour amplifier les perturbations de texture à haute fréquence.
Un mécanisme de gating par attention fusionne adaptativement ces deux niveaux de granularité.
Le résultat est compressé en un Jeton de Contenu (Content Token - $T_v$ ) compact et aligné sémantiquement, servant de base factuelle fiable pour le raisonnement.

B. Modélisation de la Structure Relationnelle (R-AUGNN)

Pour intégrer les connaissances anatomiques, un Réseau de Neurones Graphiques de Unités d'Action Sensibles aux Relations (R-AUGNN) est développé :

Il encode les règles anatomiques du FACS (Facial Action Coding System) sous forme d'une topologie prioritaire sparse (matrice d'adjacence statique).
Il apprend dynamiquement les forces d'interaction entre les AU en fonction de l'instance visuelle actuelle via un mécanisme d'attention.
Cela génère un Jeton d'Instruction (Instruction Token - $\tau_{au}$ ) qui guide le LLM avec des contraintes physiques explicites sur les relations entre muscles.

C. Raisonnement Logique et Régularisation (LLM + CCR)

Raisonnement : Les tokens visuels ( $T_v$ ) et structurels ( $\tau_{au}$ ) sont injectés dans un prompt textuel structuré pour un LLM (basé sur DeepSeek-R1). Le modèle effectue une déduction logique pour prédire les AU, au lieu d'une simple régression.
Régularisation par Cohérence Contrefactuelle (CCR) : Pour améliorer la généralisation inter-domaines, une stratégie d'entraînement spécifique est introduite. Elle applique des perturbations dirigées sur les instructions structurelles (créant des scénarios contrefactuels) et force le modèle à maintenir une cohérence logique. Cela permet de briser les corrélations pseudo-causales (bruit de domaine) et d'apprendre les liens de causalité réels entre les mouvements musculaires et les étiquettes.

3. Contributions Clés

Changement de paradigme : Passage d'une classification multi-étiquettes purement visuelle à un processus de déduction logique guidé par un LLM, combinant preuves visuelles et priors anatomiques.
MGE-EFP : Une architecture visuelle capable de préserver les signaux haute fréquence subtils tout en intégrant le contexte global, évitant ainsi la dilution des preuves discriminatives.
R-AUGNN : Un mécanisme qui injecte des priors anatomiques (FACS) dans un apprentissage de graphe adaptatif, permettant de modéliser explicitement les relations de synergie et d'inhibition entre les AU.
CCR (Counterfactual Consistency Regularization) : Une technique de régularisation innovante qui améliore la robustesse inter-domaines en forçant le modèle à apprendre des relations causales invariantes plutôt que des biais statistiques spécifiques aux jeux de données.

4. Résultats Expérimentaux

Le framework a été évalué sur trois benchmarks de référence : CASME II, SAMM et le nouveau 4DME-Micro.

Performance Intra-domaine (LOSO) :
- Sur CASME II, AULLM++ atteint un score Macro-F1 de 82,4 %, surpassant l'état de l'art (SSSNet LED à 78,4 %) et la version conférence précédente (AULLM à 81,4 %).
- Sur SAMM, il atteint 62,6 % (contre 54,2 % pour SSSNet LED).
- Sur le défi 4DME-Micro, il obtient 57,7 %, démontrant une amélioration significative par rapport à la version précédente (55,0 %).
Généralisation Inter-domaines (Cross-Domain) :
- Dans des scénarios de transfert stricts (entraînement sur un jeu de données, test sur un autre sans fine-tuning), AULLM++ démontre une robustesse supérieure. Par exemple, dans le transfert 4DME $\to$ CASME II, il obtient 55,0 % contre 31,5 % pour les méthodes basées sur CNN.
- Les visualisations t-SNE montrent une meilleure superposition des caractéristiques entre les domaines, indiquant que le modèle apprend des représentations invariantes aux biais de domaine (éclairage, ethnicité, capteur).
Études d'ablation :
- La suppression du R-AUGNN ou du CCR entraîne une baisse significative des performances, confirmant l'importance cruciale des priors structurels et de la régularisation causale.
- Le remplacement du LLM par un simple MLP entraîne la chute la plus drastique, validant l'apport du raisonnement logique.

5. Signification et Impact

Ce travail représente une avancée majeure dans le domaine de l'informatique affective et de la reconnaissance des micro-expressions :

Robustesse aux signaux faibles : Il démontre que l'intégration de priors anatomiques et de capacités de raisonnement logique peut compenser l'extrême faiblesse du signal visuel des micro-expressions.
Généralisation : En s'éloignant de l'appariement de motifs statistiques (qui échouent face aux changements de domaine) pour se tourner vers la déduction causale, AULLM++ résout le problème critique de la généralisation inter-domaines.
Interprétabilité : L'utilisation d'un LLM permet potentiellement d'obtenir des processus de décision plus transparents et interprétables, basés sur des règles physiologiques explicites.

En conclusion, AULLM++ établit un nouvel état de l'art en transformant la détection des micro-expressions en un problème de raisonnement structuré, offrant une solution robuste aux défis du bruit, de la complexité des combinaisons d'AU et des variations de domaine.