Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

이 논문은 10 번째 ABAW 대회에서 제안된 팀 RAS 의 다중 모달 (얼굴, 행동, 음성) 감정 인식 접근법을 소개하며, Qwen3-VL, Mamba, WavLM 등 최신 모델을 활용하여 Aff-Wild2 데이터셋에서 0.658 의 CCC 점수를 달성한 결과를 보고합니다.

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 감정을 읽는 '3 인조 팀'의 등장

기존의 AI 는 주로 사람의 얼굴 표정만 보고 감정을 추측했습니다. 하지만 야외에서는 빛이 반사되거나, 머리가 가려지거나, 표정이 뚜렷하지 않아서 AI 가 헷갈리기 쉽죠.

이 연구팀은 **"혼자서 모든 걸 다 알 수는 없다"**고 생각했습니다. 그래서 세 명의 전문가로 구성된 **'감정 분석 팀'**을 꾸렸습니다.

  1. 얼굴 전문가 (Face Model): 사람의 표정을 세밀하게 분석합니다.
  2. 행동 관찰자 (Behavior Model): 표정뿐만 아니라 몸짓, 제스처, 주변 상황까지 보고 "이 사람이 지금 어떤 상황인가?"를 파악합니다.
  3. 목소리 분석가 (Audio Model): 사람의 말투, 톤, 숨소리 등을 들어 감정의 강도를 파악합니다.

이 세 명이 각자 감을 잡은 뒤, 서로의 의견을 종합해서 최종 감정을 결정하는 방식입니다.


🔍 각 전문가의 특징과 도구

1. 얼굴 전문가: "얼굴의 미세한 떨림까지!"

이 팀은 GRADA라는 특수 안경을 쓴 것처럼, 프레임 (화면) 단위로 얼굴을 분석합니다. 마치 고화질 카메라로 얼굴의 근육 하나하나가 어떻게 움직이는지 쫓아다니는 것과 같습니다. 그리고 Transformer라는 도구를 써서 "얼굴이 시간이 지남에 따라 어떻게 변해왔는지" 흐름을 읽습니다.

2. 행동 관찰자: "AI 가 영화를 보고 대본을 쓴다"

이 부분이 이 연구의 가장 혁신적인 점입니다. 연구팀은 Qwen3-VL이라는 거대 인공지능 (VLM) 을 고용했습니다.

  • 비유: 이 AI 는 단순히 얼굴만 보는 게 아니라, **"이 영상 속 인물이 무슨 표정을 짓고, 어떤 제스처를 취하며, 주변 환경은 어떤지"**를 읽은 뒤, **"이 사람은 지금 기분이 좋지만 약간 불안해하는 것 같다"**는 식의 **감정 일기 (텍스트)**를 작성합니다.
  • 이 '감정 일기'를 Mamba라는 빠른 처리 장치를 통해 시간의 흐름에 따라 분석합니다. 즉, AI 가 영상을 보고 "이건 슬픈 장면이야"라고 설명을 해주는 셈이죠.

3. 목소리 분석가: "소음 속에서 진짜 목소리를 찾아내"

야외에서는 바람 소리나 주변 소음이 많아서 목소리 분석이 어렵습니다. 이 팀은 WavLM이라는 도구를 쓰는데, 특히 MediaPipe라는 기술로 "입이 움직이는지"를 먼저 확인합니다.

  • 비유: 시끄러운 파티에서 친구의 목소리를 들으려면, "친구가 입을 벌리고 있는가?"를 먼저 확인해야 하죠. 입을 벌리지 않은 구간 (소음만 있는 구간) 은 아예 무시하고, 진짜 말소리가 들리는 구간만 골라내서 정밀 분석을 합니다.

🤝 세 명이 만나는 방법: 두 가지 전략

세 명의 전문가가 각자 감정을 말했을 때, 어떻게 하나로 합칠까요? 연구팀은 두 가지 방법을 시도했습니다.

전략 1: "민주적인 토론방" (DCMMOE)

세 전문가가 서로 대화하며 의견을 교환합니다.

  • "얼굴 전문가가 말하길 슬픈데, 목소리 분석가는 화난 것 같아. 행동 관찰자는 뭐라고 할까?"
  • 이때 **게이트 (문지기)**가 각 전문가의 말을 얼마나 신뢰할지 가중치를 줍니다. 예를 들어, 얼굴이 가려져서 얼굴 전문가의 의견이 불확실하면, 그 의견의 비중을 줄이고 목소리 전문가의 의견을 더 중요하게 여깁니다.

전략 2: "현장 지휘관 시스템" (RAAV)

이 방법은 얼굴과 행동을 주력으로 보고, 목소리는 보조 정보로 활용합니다.

  • 비유: 카메라 (얼굴/행동) 가 실시간으로 상황을 찍어내는데, 목소리는 그 장면에 배경음악이나 내레이션처럼 추가되는 정보입니다.
  • 특히 목소리가 신뢰할 수 없을 때는 무시하고, 얼굴과 행동의 흐름에 집중합니다. 이 방식이 실험에서 가장 좋은 결과를 냈습니다.

🏆 결과는 어땠나요?

이 팀 (Team RAS) 은 Aff-Wild2라는 거대한 야외 감정 데이터셋으로 실험을 했습니다.

  • 결과: 기존에 혼자서 하던 방법들보다 훨씬 정확도가 높았습니다. 특히 목소리와 얼굴, 행동 일기를 모두 합친 '현장 지휘관 시스템'이 가장 잘 작동했습니다.
  • 핵심 통찰: 단순히 얼굴만 보는 것보다, AI 가 영상의 내용을 이해하고 "이 사람은 지금 무슨 상황인가?"를 설명할 수 있게 하는 것 (멀티모달 VLM) 이 감정을 더 잘 읽는 데 도움이 된다는 것을 증명했습니다.

💡 한 줄 요약

"이 연구는 AI 에게 '얼굴'만 보지 말고, '몸짓'과 '목소리'까지 듣고, 영상의 내용을 이해해서 '감정 일기'를 쓰게 한 뒤, 이 모든 정보를 지혜롭게 합쳐서 사람의 마음을 더 정확하게 읽는 방법을 개발했습니다."

이처럼 AI 가 사람의 감정을 이해하는 데는 다양한 감각을 통합하는 것이 얼마나 중요한지 보여주는 흥미로운 연구입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →