Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

L'article présente une approche multimodale de l'ambivalence/hésitation pour le 10e concours ABAW, combinant des modalités visuelles, faciales, audio et textuelles via des modèles avancés et des stratégies de fusion, ce qui permet d'atteindre une performance supérieure à celle des modèles unimodaux avec un score MF1 de 71,43 %.

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

Publié 2026-03-16
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Grand Défi : Détecter l'Hésitation dans une Vidéo

Imaginez que vous regardez une vidéo d'une personne qui doit prendre une décision importante (par exemple, accepter un nouveau travail ou arrêter de fumer). Parfois, cette personne dit "Oui !" avec le sourire, mais sa voix tremble légèrement, son regard fuit, et le décor autour d'elle semble chaotique. C'est ce qu'on appelle l'ambivalence ou l'hésitation.

Le problème ? C'est très subtil. Ce n'est pas comme détecter un gros rire ou une colère éclatante. C'est un mélange de petits signes contradictoires. La tâche de l'équipe LEYA (du concours ABAW 10) était de créer un "super détective" capable de repérer ces signes d'hésitation dans des vidéos réelles, sans règles strictes.

🧠 La Solution : Une Équipe de Quatre Experts

Au lieu de faire confiance à un seul expert, l'équipe LEYA a créé une équipe de quatre spécialistes qui regardent la vidéo sous des angles différents. Imaginez un conseil de guerre où chaque membre apporte une pièce du puzzle :

  1. Le Détective du Visage (Face) : Il observe les micro-expressions. Est-ce que le sourcil se lève ? Est-ce que le sourire ne touche pas les yeux ? Il utilise une technologie avancée (EmotionEfficientNetB0) pour transformer chaque image du visage en une "note d'émotion".
  2. Le Spectateur du Contexte (Scene) : Il ne regarde pas la personne, mais l'endroit. Est-ce que la pièce est en désordre ? Est-ce que la lumière change ? Parfois, l'environnement trahit le stress ou l'incertitude. Ils utilisent un modèle appelé VideoMAE (comme un cerveau qui apprend à voir le monde en mouvement) pour comprendre la dynamique de la scène.
  3. L'Analyste de la Voix (Audio) : Il écoute non pas ce qui est dit, mais comment c'est dit. La voix est-elle monotone ? Y a-t-il des silences gênants ? Ils utilisent un modèle (EmotionWav2Vec2.0) qui transforme le son en données, puis un "moteur temporel" (Mamba) pour comprendre l'histoire de la voix au fil du temps.
  4. Le Lecteur de Pensées (Texte) : Il lit la transcription de ce que la personne dit. Les mots choisis sont-ils ambigus ? Utilise-t-elle des "peut-être", "je ne sais pas" ? C'est souvent le meilleur indice, car nos mots révèlent nos doutes. Ils utilisent un modèle de langage très intelligent (EmotionDistilRoBERTa) pour comprendre le sens profond.

🤝 La Réunion de Synthèse : La Fusion Multimodale

C'est ici que la magie opère. Avoir quatre experts, c'est bien, mais s'ils ne se parlent pas, c'est inutile.

L'équipe a créé une salle de réunion virtuelle (un modèle de fusion basé sur des Transformers) où les quatre experts se réunissent.

  • Chaque expert présente son rapport.
  • Le système compare les rapports : "Le visage dit 'Je suis content', mais la voix dit 'Je suis stressé' et le texte dit 'Je ne suis pas sûr'".
  • C'est cette incohérence entre les experts qui signale l'hésitation.

Pour rendre ce système encore plus robuste, ils ont ajouté une astuce appelée "Prototype-augmented". Imaginez que le système a en tête deux "modèles idéaux" : un modèle parfait de "Décision Claire" et un modèle parfait de "Hésitation Totale". À la fin, il compare ce qu'il a vu dans la vidéo avec ces deux modèles pour voir lequel ressemble le plus à la réalité.

🏆 Les Résultats : Pourquoi l'Équipe a Gagné

Le papier montre que :

  • Seul, le texte est le meilleur : Si vous ne deviez en choisir qu'un, lire ce que la personne dit est le meilleur indice (environ 70% de réussite).
  • Ensemble, ils sont invincibles : Quand les quatre experts travaillent ensemble, la précision monte à 83% sur les tests d'entraînement.
  • Le secret de la victoire : Pour le test final (le vrai examen), ils ont pris cinq versions de ce système d'équipe et ont fait une moyenne de leurs avis (comme un jury de 5 juges). Cela a permis d'atteindre 71,43%, ce qui est le meilleur résultat du concours.

💡 En Résumé

Ce papier nous apprend que pour comprendre les doutes humains, il ne faut pas regarder qu'une seule chose. Il faut écouter la voix, lire les mots, observer le visage et regarder autour de la personne.

C'est comme essayer de comprendre si un ami est vraiment heureux ou s'il force le sourire : vous ne le saurez qu'en croisant tous les indices (ses paroles, son ton, son regard et son attitude). L'équipe LEYA a simplement créé un ordinateur capable de faire ce croisement d'indices beaucoup mieux que n'importe quel humain seul.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →