Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition
Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.