Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

L'équipe RAS a proposé une méthode multimodale innovante pour l'estimation de la valence et de l'activation dans des conditions réelles, combinant des modalités faciales, comportementales et audio via des architectures avancées comme Qwen3-VL et Mamba, et obtenant un coefficient de corrélation concordante (CCC) de 0,658 sur le jeu de données Aff-Wild2 lors du 10e défi ABAW.

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

Publié 2026-03-16
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Enquête : Comprendre les émotions sans parler

Imaginez que vous essayez de deviner ce qu'un inconnu ressent en le regardant passer dans la rue. C'est difficile ! Il peut faire froid, il peut avoir un chapeau qui cache son visage, ou il peut être dans une pièce sombre. C'est ce qu'on appelle les conditions "sauvages" (in-the-wild).

L'équipe Team RAS (des chercheurs russes) a participé à un grand concours mondial (le 10ème ABAW) pour créer un super-détective numérique capable de deviner deux choses précises chez n'importe qui, n'importe où :

  1. La Valence : Est-ce que la personne est contente (positif) ou malheureuse (négatif) ?
  2. L'Arousal : Est-ce que la personne est calme (dormante) ou très excitée (en colère, très joyeuse) ?

Leur secret ? Ils ne se fient pas à un seul sens. Ils utilisent une équipe de trois experts qui travaillent ensemble.


🎭 Les Trois Experts de l'Équipe

Pour comprendre une émotion, le système regarde trois choses différentes, comme trois détectives avec des spécialités uniques :

1. L'Expert Visage (Le Lecteur de Micro-Expressions)

  • Son rôle : Il regarde le visage, pixel par pixel.
  • Son outil : Il utilise un modèle appelé GRADA. Imaginez un photographe ultra-rapide qui prend des milliers de photos par seconde du visage. Il ne regarde pas juste "un sourire", il analyse la tension des muscles, le froncement de sourcils, etc.
  • Le problème : Parfois, le visage bouge trop vite ou est caché. Ce modèle est très bon pour voir les détails instantanés, mais il a besoin d'aide pour comprendre l'histoire globale.

2. L'Expert Comportement (Le Psychologue IA)

  • Son rôle : Il ne regarde pas juste les pixels, il essaie de comprendre ce qui se passe.
  • Son outil : C'est ici que ça devient magique. Ils utilisent une IA très puissante appelée Qwen3-VL (un "Grand Modèle Multimodal").
  • L'analogie : Imaginez que vous montrez une vidéo à un psychologue expert. Au lieu de juste dire "il sourit", le psychologue écrit un petit paragraphe : "La personne penche la tête, ses épaules sont relâchées, elle semble fatiguée mais heureuse."
  • La magie : L'IA fait la même chose ! Elle transforme la vidéo en une description textuelle de l'ambiance. Ensuite, un autre modèle (Mamba) lit cette description pour comprendre comment l'émotion évolue dans le temps. C'est comme passer de "voir une image" à "lire un roman" sur l'émotion.

3. L'Expert Audio (Le Détective des Sons)

  • Son rôle : Il écoute la voix.
  • Son outil : Un modèle appelé WavLM.
  • Le filtre intelligent : Dans la vraie vie, il y a du bruit, des gens qui parlent à côté, ou la personne peut ne rien dire du tout. L'expert audio est très sélectif : il utilise un filtre (basé sur la bouche qui s'ouvre) pour ne garder que les moments où la personne parle vraiment. Il ignore les bruits de fond inutiles.

🤝 La Réunion de Synthèse : Comment ils travaillent ensemble

Avoir trois experts, c'est bien. Mais comment les faire se mettre d'accord ? L'équipe a testé deux méthodes de réunion (Fusion) :

Méthode 1 : Le "Mélange d'Experts Dirigé" (DCMMOE)

Imaginez un conseil d'administration où chaque expert peut parler à n'importe quel autre.

  • Le visage peut dire à l'audio : "Hé, tu entends ce cri ? Regarde mon visage, c'est de la peur !".
  • L'audio peut dire au comportement : "La voix tremble, donc même si le visage est neutre, il y a du stress."
  • Un gardien intelligent (un mécanisme de "gating") décide à chaque seconde qui a le plus raison. Si la caméra est floue, il écoute plus l'audio. Si l'audio est bruyant, il écoute le visage.

Méthode 2 : La "Fusion Audio-Visuelle Consciente de la Fiabilité" (RAAV)

C'est la méthode gagnante de l'équipe.

  • Ici, le Visage et le Comportement sont les chefs. Ils décident de l'histoire seconde par seconde (comme un film).
  • L'Audio joue le rôle d'un conseiller spécial. Il ne dicte pas le film, mais il apporte des preuves supplémentaires pour confirmer ou nuancer ce que disent les yeux.
  • C'est comme si vous regardiez un film (visuel) avec un ami qui vous chuchote des détails importants à l'oreille (audio) pour mieux comprendre l'intrigue.

🏆 Le Résultat : Qui a gagné ?

L'équipe a testé leur système sur une base de données géante de vidéos réelles (Aff-Wild2).

  • Le constat : Un seul expert (juste le visage, ou juste l'audio) se trompe souvent.
  • La victoire : Quand les trois travaillent ensemble, surtout avec la méthode "Consciente de la Fiabilité" (RAAV), le système devient très précis.
  • Le score : Ils ont obtenu un score de 0,658 (sur une échelle où 1 est parfait). C'est un excellent résultat, rivalisant avec les meilleurs systèmes du monde.

💡 En résumé

Ce papier nous dit que pour comprendre les émotions humaines dans la vraie vie, il ne faut pas juste "voir" ou "entendre". Il faut :

  1. Voir les détails du visage.
  2. Comprendre le contexte global (comme un psychologue qui décrit la scène).
  3. Écouter les indices sonores, mais seulement quand ils sont fiables.
  4. Faire collaborer ces trois intelligences de manière intelligente, en sachant qui écouter à quel moment.

C'est une belle démonstration que l'IA devient plus "humaine" en apprenant à combiner ses sens, tout comme nous le faisons naturellement !

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →