A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition
Questo paper presenta un modello duale audio-visivo a due stadi basato su DINOv2 e Wav2Vec 2.0, che integra tecniche di estrazione robusta delle caratteristiche e fusione temporale per superare le sfide del riconoscimento delle espressioni facciali nel contesto del workshop ABAW 10, ottenendo risultati superiori rispetto alle linee di base ufficiali.