A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition
이 논문은 ABAW 10th 워크숍의 얼굴 표정 인식 과제를 해결하기 위해 DINOv2 기반의 시각 특징 추출과 Wav2Vec 2.0 기반의 청각 특징을 결합한 2 단계 이중 모달 모델을 제안하여, 공식 검증 세트에서 0.5368 의 Macro-F1 점수를 기록하며 기존 베이스라인을 능가하는 성능을 입증했습니다.