Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition
本論文は、音声と映像のフレームレート不一致を解決し、時間的整合性を保つために、 Temporally-aligned Rotary Position Embeddings (TaRoPE) と Cross-Temporal Matching (CTM) 損失を組み込んだトランスフォーマーベースのマルチモーダル自己注意ネットワークを提案し、CREMA-D および RAVDESS データセットにおける感情認識精度の向上を実証しています。