Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

이 논문은 10 번째 ABAW 대회에서 제안된 팀 LEYA 의 다중 모달 접근법을 소개하며, 장면, 얼굴, 음성, 텍스트 정보를 통합하고 프로토타입 증강 fusion 모델을 활용한 앙상블을 통해 단일 모달 기반보다 뛰어난 ambivalence/hesitancy 인식 성능을 입증했습니다.

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "말은 그렇지만, 표정은 anders?"

사람이 어떤 결정을 내릴 때 망설이거나 갈등하는 상태는 매우 미묘합니다.

  • 입으로는 "네, 좋아요"라고 말하지만,
  • 얼굴 표정은 어색하게 굳어있고,
  • 목소리 톤은 떨리며,
  • 주변 배경이나 몸짓에서도 불안함이 느껴질 수 있습니다.

기존의 AI 는 이런 '미묘한 신호'를 한 가지 정보 (예: 얼굴만 보거나 목소리만 듣기) 로 판단하려다 실패했습니다. 마치 실제 사람을 만나 대화할 때, 상대방의 말만 듣고 "아, 이 사람은 진짜로 기뻐하는구나"라고 단정 짓는 것과 비슷합니다. 하지만 실제로는 표정이 굳어있거나 목소리가 떨릴 수 있죠.

🕵️‍♂️ 2. 해결책: "4 명의 탐정 팀" (다중 모달 접근)

팀 LEYA 는 이 문제를 해결하기 위해 4 명의 전문 탐정으로 구성된 팀을 꾸렸습니다. 각 탐정은 서로 다른 정보를 수집합니다.

  1. 배경 탐정 (Scene): 사람의 얼굴이 아니라, 주변 환경과 상황을 봅니다. (예: 회의실인지, 카페인지, 배경이 혼란스러운지 등)
  2. 얼굴 탐정 (Face): 사람의 표정 변화를 세세하게 분석합니다. (미묘한 눈썹 떨림, 입꼬리 움직임 등)
  3. 목소리 탐정 (Audio): 말의 톤, 속도, 떨림을 분석합니다. (말은 긍정적이지만 목소리에 불안감이 섞여 있는지)
  4. 문서 탐정 (Text): 사람이 **무엇을 말했는지 (대본)**를 분석합니다. (문장 구조, 단어 선택에서 오는 갈등)

이 4 명의 탐정은 각각 자신의 분야에서 최고의 전문가 (최신 AI 모델) 로 훈련되었습니다.

🧩 3. 핵심 기술: "회의실에서의 토론" (융합 및 프로토타입)

각 탐정이 수집한 정보를 단순히 합치는 게 아니라, 지혜로운 회의를 엽니다.

  • 단순 합치기 vs. 심층 토론:
    기존 방식은 4 명의 의견을 그냥 섞는 것이었다면, 이 연구팀은 **변환기 (Transformer)**라는 기술을 써서 4 명이 서로의 의견을 주고받으며 "아, 이 사람은 말은 좋지만 표정이 굳어있네? 그럼 망설이는 거겠구나"라고 상호작용을 통해 결론을 내립니다.

  • 프로토타입 (Prototype) 의 역할:
    여기서 가장 재미있는 비유가 나옵니다. AI 는 **'완벽한 갈등하는 사람'의 이미지 (프로토타입)**를 머릿속에 16 개 정도 가지고 있습니다.

    • 회의 결과를 내기 전, AI 는 "지금 이 사람의 모습이 우리 머릿속에 있는 '갈등하는 사람' 이미지 중 어느 것과 가장 닮았을까?"라고 비교합니다.
    • 이 비교 과정을 통해 AI 는 단순히 "아니요"라고 답하는 게 아니라, **"이 사람은 갈등하는 패턴과 80% 비슷해!"**라고 더 정교하게 판단하게 됩니다.

🏆 4. 결과: "혼자보다 함께가 낫다"

연구팀은 이 방법을 BAH 라는 데이터셋 (실제 사람들이 갈등하는 상황을 담은 영상) 으로 테스트했습니다.

  • 한 명만 봤을 때:
    • '문서 탐정 (텍스트 분석)'이 가장 잘했습니다. (약 70% 정확도)
    • 하지만 '배경 탐정'이나 '얼굴 탐정'만으로는 60% 대에 그쳤습니다.
  • 4 명이 함께했을 때:
    • 4 명이 정보를 공유하고 토론한 결과, 정확도가 83% 이상으로 급상승했습니다.
    • 특히 **5 개의 팀을 모아 투표하는 방식 (앙상블)**을 쓰자, 최종 대회에서 **71.43%**라는 최고의 성적을 거뒀습니다.

💡 5. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"사람의 마음을 읽을 때는 한 가지 정보만 믿으면 안 된다"**는 것을 증명했습니다.

  • 일상적인 비유:
    친구가 "나 괜찮아"라고 말해도, 표정이 어색하고 목소리가 떨린다면 우리는 "아, 친구가 힘든구나"라고 알 수 있습니다. 이 연구는 AI 가 바로 그런 비언어적 신호와 언어적 신호의 불일치를 포착하도록 가르친 것입니다.

  • 실제 활용:
    이 기술은 디지털 헬스케어나 교육 분야에서 유용합니다. 예를 들어, AI 상담사가 사용자의 반응에서 "이 사람은 지금 결정을 내리기 힘들어하고 있구나"라고 감지하면, 더 부드럽게 도와주거나 추가 정보를 제공할 수 있게 됩니다.

한 줄 요약:

"이 연구는 AI 가 사람의 말, 표정, 목소리, 배경을 모두 종합적으로 분석해, '말로는 그렇지만 속으로는 망설이는' 미묘한 심리 상태를 찾아내는 새로운 방법을 개발했습니다. 마치 4 명의 전문가가 모여서 서로의 의견을 종합해 가장 정확한 결론을 내리는 것과 같습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →