Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition
Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.