A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition
Este trabajo propone un modelo de dos etapas y doble modalidad (audiovisual) basado en DINOv2 y Wav2Vec 2.0, que supera las líneas base oficiales en el reconocimiento de expresiones faciales del taller ABAW 10 mediante la extracción robusta de características visuales, la fusión de pistas acústicas y la suavización temporal.