Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Grand Défi : Détecter l'Hésitation dans une Vidéo

Imaginez que vous regardez une vidéo d'une personne qui doit prendre une décision importante (par exemple, accepter un nouveau travail ou arrêter de fumer). Parfois, cette personne dit "Oui !" avec le sourire, mais sa voix tremble légèrement, son regard fuit, et le décor autour d'elle semble chaotique. C'est ce qu'on appelle l'ambivalence ou l'hésitation.

Le problème ? C'est très subtil. Ce n'est pas comme détecter un gros rire ou une colère éclatante. C'est un mélange de petits signes contradictoires. La tâche de l'équipe LEYA (du concours ABAW 10) était de créer un "super détective" capable de repérer ces signes d'hésitation dans des vidéos réelles, sans règles strictes.

🧠 La Solution : Une Équipe de Quatre Experts

Au lieu de faire confiance à un seul expert, l'équipe LEYA a créé une équipe de quatre spécialistes qui regardent la vidéo sous des angles différents. Imaginez un conseil de guerre où chaque membre apporte une pièce du puzzle :

Le Détective du Visage (Face) : Il observe les micro-expressions. Est-ce que le sourcil se lève ? Est-ce que le sourire ne touche pas les yeux ? Il utilise une technologie avancée (EmotionEfficientNetB0) pour transformer chaque image du visage en une "note d'émotion".
Le Spectateur du Contexte (Scene) : Il ne regarde pas la personne, mais l'endroit. Est-ce que la pièce est en désordre ? Est-ce que la lumière change ? Parfois, l'environnement trahit le stress ou l'incertitude. Ils utilisent un modèle appelé VideoMAE (comme un cerveau qui apprend à voir le monde en mouvement) pour comprendre la dynamique de la scène.
L'Analyste de la Voix (Audio) : Il écoute non pas ce qui est dit, mais comment c'est dit. La voix est-elle monotone ? Y a-t-il des silences gênants ? Ils utilisent un modèle (EmotionWav2Vec2.0) qui transforme le son en données, puis un "moteur temporel" (Mamba) pour comprendre l'histoire de la voix au fil du temps.
Le Lecteur de Pensées (Texte) : Il lit la transcription de ce que la personne dit. Les mots choisis sont-ils ambigus ? Utilise-t-elle des "peut-être", "je ne sais pas" ? C'est souvent le meilleur indice, car nos mots révèlent nos doutes. Ils utilisent un modèle de langage très intelligent (EmotionDistilRoBERTa) pour comprendre le sens profond.

🤝 La Réunion de Synthèse : La Fusion Multimodale

C'est ici que la magie opère. Avoir quatre experts, c'est bien, mais s'ils ne se parlent pas, c'est inutile.

L'équipe a créé une salle de réunion virtuelle (un modèle de fusion basé sur des Transformers) où les quatre experts se réunissent.

Chaque expert présente son rapport.
Le système compare les rapports : "Le visage dit 'Je suis content', mais la voix dit 'Je suis stressé' et le texte dit 'Je ne suis pas sûr'".
C'est cette incohérence entre les experts qui signale l'hésitation.

Pour rendre ce système encore plus robuste, ils ont ajouté une astuce appelée "Prototype-augmented". Imaginez que le système a en tête deux "modèles idéaux" : un modèle parfait de "Décision Claire" et un modèle parfait de "Hésitation Totale". À la fin, il compare ce qu'il a vu dans la vidéo avec ces deux modèles pour voir lequel ressemble le plus à la réalité.

🏆 Les Résultats : Pourquoi l'Équipe a Gagné

Le papier montre que :

Seul, le texte est le meilleur : Si vous ne deviez en choisir qu'un, lire ce que la personne dit est le meilleur indice (environ 70% de réussite).
Ensemble, ils sont invincibles : Quand les quatre experts travaillent ensemble, la précision monte à 83% sur les tests d'entraînement.
Le secret de la victoire : Pour le test final (le vrai examen), ils ont pris cinq versions de ce système d'équipe et ont fait une moyenne de leurs avis (comme un jury de 5 juges). Cela a permis d'atteindre 71,43%, ce qui est le meilleur résultat du concours.

💡 En Résumé

Ce papier nous apprend que pour comprendre les doutes humains, il ne faut pas regarder qu'une seule chose. Il faut écouter la voix, lire les mots, observer le visage et regarder autour de la personne.

C'est comme essayer de comprendre si un ami est vraiment heureux ou s'il force le sourire : vous ne le saurez qu'en croisant tous les indices (ses paroles, son ton, son regard et son attitude). L'équipe LEYA a simplement créé un ordinateur capable de faire ce croisement d'indices beaucoup mieux que n'importe quel humain seul.

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

🎬 Le Grand Défi : Détecter l'Hésitation dans une Vidéo

🧠 La Solution : Une Équipe de Quatre Experts

🤝 La Réunion de Synthèse : La Fusion Multimodale

🏆 Les Résultats : Pourquoi l'Équipe a Gagné

💡 En Résumé

1. Problématique

2. Méthodologie

A. Extraction de caractéristiques Unimodales

B. Fusion Multimodale

C. Stratégie d'Ensemble

3. Résultats Clés

4. Contributions Principales

5. Signification

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

🎬 Le Grand Défi : Détecter l'Hésitation dans une Vidéo

🧠 La Solution : Une Équipe de Quatre Experts

🤝 La Réunion de Synthèse : La Fusion Multimodale

🏆 Les Résultats : Pourquoi l'Équipe a Gagné

💡 En Résumé

1. Problématique

2. Méthodologie

A. Extraction de caractéristiques Unimodales

B. Fusion Multimodale

C. Stratégie d'Ensemble

3. Résultats Clés

4. Contributions Principales

5. Signification

Articles similaires

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks