A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

이 논문은 ABAW 10th 워크숍의 얼굴 표정 인식 과제를 해결하기 위해 DINOv2 기반의 시각 특징 추출과 Wav2Vec 2.0 기반의 청각 특징을 결합한 2 단계 이중 모달 모델을 제안하여, 공식 검증 세트에서 0.5368 의 Macro-F1 점수를 기록하며 기존 베이스라인을 능가하는 성능을 입증했습니다.

Jiajun Sun, Zhe Gao

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"야생에서 얼굴 표정을 읽는 AI"**에 대한 이야기입니다.

우리가 영화를 보거나 유튜브를 볼 때, 배우의 표정이 어떻게 변하는지 직관적으로 알 수 있죠. 하지만 컴퓨터에게 "이 장면에서 저 사람은 화가 났나요, 슬픈가요?"라고 물어보면, 카메라 흔들림, 어두운 조명, 얼굴이 잘 안 보이는 상황 때문에 매우 혼란을 겪습니다.

이 논문은 상하이 노멀 대학교 연구팀이 이 문제를 해결하기 위해 개발한 **"두 단계의 지능형 시스템"**을 소개합니다. 마치 훌륭한 감정 분석가가 되기 위해 1 단계: 눈 (시각) 훈련2 단계: 귀 (청각) 훈련을 거치는 과정과 같습니다.


🎭 핵심 비유: "감정 탐정"이 되는 두 단계 여정

이 시스템은 복잡한 비디오 속 얼굴 표정을 8 가지 감정 (화남, 슬픔, 기쁨 등) 으로 분류합니다. 이를 위해 다음과 같은 두 단계를 거칩니다.

1 단계: "눈"을 훈련시키는 단계 (Visual Adaptation)

비유: 안경을 고쳐 쓰고, 다양한 각도에서 얼굴을 보는 법을 배우는 것

일반적인 AI 는 얼굴이 잘려 있거나, 너무 멀리 있거나, 너무 가까워서 얼굴이 화면 밖으로 나가는 경우를 보면 당황합니다. 마치 안경이 깨진 상태로 사진을 보는 것과 비슷하죠.

  • DINOv2 라는 슈퍼 눈: 연구팀은 이미 세상을 잘 보는 AI(비전 모델) 를 가져와서 얼굴 표정 분석에 특화시켰습니다.
  • PadAug(패딩 인식) 전략: 얼굴이 화면 밖으로 나가면 검은색 테두리가 생깁니다. 보통 AI 는 이 검은색을 이상하게 여기지만, 이 연구팀은 **"아, 얼굴이 화면 밖으로 나가는 거구나"**라고 미리 가르쳤습니다. 마치 학생에게 "시험지 가장자리가 찢어질 수도 있으니, 그 부분도 보고 답을 찾아라"라고 훈련시킨 것과 같습니다.
  • MoE(전문가 집단) 헤드: 하나의 전문가가 모든 걸 다 알 수는 없죠. 그래서 여러 명의 '감정 전문가'를 모아두고, 각 상황에 가장 적합한 전문가가 답을 내도록 했습니다.

이 단계에서 AI 는 얼굴 이미지만 보고도 표정을 잘 읽는 튼튼한 '눈'을 갖게 됩니다.

2 단계: "눈"과 "귀"를 합치는 단계 (Dual-Modality Fusion)

비유: 눈으로 표정을 보고, 귀로 목소리 톤을 들어 "진짜 감정"을 파악하는 것

실제 상황에서는 표정만으로는 알 수 없는 경우가 많습니다. 예를 들어, 얼굴은 웃고 있지만 목소리가 떨린다면? AI 는 혼란스러워할 수 있습니다.

  • 다중 스케일 얼굴 재자르기: 한 번에 얼굴을 크게, 중간, 작게 세 가지 크기로 잘라내서 AI 에게 보여줍니다. 마치 줌인, 줌아웃, 정면을 모두 확인하며 "어떤 크기로 봐도 이 표정은 확실히 화난 거야"라고 결론 내리는 것과 같습니다.
  • Wav2Vec 2.0(귀 훈련): 짧은 오디오 조각을 분석해 목소리의 높낮이와 톤을 감지합니다.
  • 게이트 융합 (Gated Fusion): 여기서 핵심은 **'문지기 (게이트)'**입니다.
    • "표정이 흐릿해서 눈이 안 믿겨? 그럼 귀 (목소리) 정보를 더 믿자."
    • "목소리가 너무 시끄러워서 귀가 안 믿겨? 그럼 눈 (표정) 정보에 더 집중하자."
    • 이 문지기가 상황에 따라 눈과 귀의 정보를 적절히 섞어줍니다.

3 단계: 흔들림을 잡는 단계 (Temporal Smoothing)

비유: 영화 편집자가 "이 장면은 너무 급하게 변했네, 부드럽게 이어줘"라고 수정하는 것

비디오는 프레임 (장면) 이 빠르게 바뀝니다. AI 가 매 프레임마다 "화남 -> 슬픔 -> 화남 -> 슬픔"이라고 급하게 판단하면 결과가 불안정해 보입니다.

  • 중앙값 필터링: AI 가 100 프레임 정도를 한 번에 훑어보고, 가장 자주 나오는 감정이나 중간에 있는 감정을 최종 답으로 선택합니다.
  • 효과: 갑자기 튀는 감정 변화 (노이즈) 를 제거하고, 감정의 흐름이 자연스럽게 이어지도록 만듭니다.

🏆 결과: 왜 이 방법이 좋을까요?

이 방법은 **ABAW(야생 감정 분석 대회)**라는 치열한 경쟁에서 최상위권 성적을 거두었습니다.

  1. 정확도 향상: 기존 방법보다 훨씬 정확하게 감정을 읽었습니다. (정답률 53.68% 달성)
  2. 가볍고 빠름: 무거운 복잡한 기계 대신, 간단하지만 똑똑한 도구들을 조합했습니다.
  3. 실전 강함: 실험실처럼 깨끗한 환경이 아니라, 흔들리고 어두운 **실제 세상 (야생)**에서도 잘 작동합니다.

💡 한 줄 요약

이 논문은 **"AI 가 야생에서 얼굴 표정을 읽을 때, 안경을 고쳐 쓰고 (1 단계), 목소리도 듣고 (2 단계), 마지막에 흔들림을 정리해 (3 단계) 주면 훨씬 똑똑해진다"**는 것을 증명했습니다.

마치 우리가 감정을 읽을 때 "표정만 보는 게 아니라, 목소리 톤도 듣고, 상황을 종합적으로 판단"하는 것과 같은 원리입니다.