Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling
Ce papier propose un cadre d'analyse multimodale des émotions pour le défi ABAW 10, combinant des modèles pré-entraînés (CLIP et Wav2Vec 2.0), une modélisation temporelle par réseau de convolution et un mécanisme d'attention croisée bidirectionnelle pour améliorer la reconnaissance des expressions faciales dans des environnements réels non contraints.