Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild

이 논문은 DINOv2 와 WavLM 기반의 표현, 계층적 세분성 정렬 모듈, 그리고 Vision-Mamba 아키텍처를 통합하여 자연 환경에서의 강인한 멀티모달 표정 행동 단위 (AU) 감지를 실현하고 Aff-Wild2 데이터셋에서 최첨단 성능을 달성한 새로운 프레임워크를 제안합니다.

Jun Yu, Yunxiang Zhang, Naixiang Zheng, Lingsi Zhu, Guoyuan Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"야생에서 사람의 미세한 표정 변화를 AI가 어떻게 정확히 읽을 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

기존의 AI 는 실험실처럼 깨끗한 환경에서는 잘 작동하지만, 실제 세상 (야생) 에서 얼굴이 비스듬하거나, 빛이 어둡거나, 소음이 섞이면 표정을 잘 못 읽었습니다. 이 연구팀은 이를 해결하기 위해 세 가지 핵심 아이디어를 섞어 새로운 AI 를 만들었습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴겠습니다.


🎬 영화 한 편을 보는 새로운 방식: "세 명의 전문가 팀"

이 연구팀은 AI 를 단순히 카메라로 찍는 기계가 아니라, 세 명의 전문가가 협력하는 영화 제작 팀처럼 설계했습니다.

1. 초고해상도 카메라와 녹음기 (Foundation Models)

  • 기존 방식: 일반적인 카메라와 녹음기를 썼습니다. 얼굴 전체는 잘 찍히지만, 입꼬리가 1 밀리미터 올라가는 미세한 변화나 숨소리 같은 건 놓치기 쉽습니다.
  • 이 연구팀의 방식:
    • 눈 (DINOv2): 마치 마이크로스코프가 달린 초고해상도 카메라처럼 작동합니다. 얼굴 전체를 보면서도 "눈썹이 살짝 떨리는 것"이나 "입술 끝의 미세한 떨림" 같은 아주 작은 디테일까지 놓치지 않고 포착합니다.
    • 귀 (WavLM): 일반적인 녹음기는 "말하는 내용 (텍스트)"만 중시해서 숨소리나 한숨을 '잡음'으로 지워버립니다. 하지만 이 팀은 감정 녹음기를 썼습니다. "아, 숨을 깊게 들이마셨다", "목소리가 떨렸다" 같은 **말하지 않은 감정 신호 (비언어적 소리)**를 잡아냅니다.

2. 지휘자의 역할: "전체와局部的을 연결하다" (Hierarchical Granularity Alignment)

  • 문제: 카메라가 너무 멀리서 찍으면 얼굴 전체는 보이지만 표정은 흐릿하고, 너무 가까이서 찍으면 (예: 입만) 얼굴이 어디 있는지 모릅니다.
  • 해결책 (HGA): 이 팀은 지휘자를 세웠습니다.
    • 지휘자는 얼굴의 **전체적인 분위기 (머리 각도, 조명)**를 보면서도, 동시에 **특정 부위 (눈, 입)**에 초점을 맞춥니다.
    • 마치 연극에서 배우가 "전체 무대"를 보면서도 "손가락 하나 움직이는 연기"를 동시에 연기하듯, AI 가 큰 그림과 작은 디테일을 동시에 이해하게 해줍니다.

3. 시간의 흐름을 읽는 마법: "소리를 보고 미래를 예측하다" (Audio-Guided State Space Model)

  • 문제: 표정은 순간이 아니라 시간의 흐름입니다. 기존 AI 는 짧은 시간만 기억해서, "화가 나기 시작해서 울음으로 변하는" 긴 과정을 놓치기 일쑤였습니다.
  • 해결책 (AG-SSM):
    • 이 팀은 소리를 보고 시각을 조절하는 마법을 썼습니다.
    • 비유: 사람이 화를 낼 때, 먼저 "숨을 크게 들이마시는 소리"가 나옵니다. 이 AI 는 그 **소리 (비언어적 단서)**를 먼저 듣고, "아, 이제 표정이 변할 거야!"라고 미리 준비합니다.
    • 또한, 무한한 기억력을 가졌습니다. 기존 AI 는 오래된 영상을 보면 기억이 사라졌지만, 이 AI 는 O(N) 선형 복잡도라는 기술을 써서 영상을 처음부터 끝까지 끊김 없이 기억하며, 소리에 맞춰 중요한 순간만 집중합니다.

4. 편견을 깨는 점수제: "드문 사건을 더 중요하게 여기다" (Asymmetric Loss)

  • 문제: 대부분의 영상은 "무표정 (중립)"입니다. AI 는 "무표정"이라고만 답해도 점수를 많이 받을 수 있어, 진짜 중요한 "화남", "슬픔" 같은 드문 표정은 무시하고 넘어가버립니다.
  • 해결책 (ASL):
    • 비유: 시험에서 "무표정" 문제는 1 점, "드문 표정" 문제는 100 점으로 점수를 다르게 매긴 것입니다.
    • AI 가 "무표정"을 맞출 때는 점수를 조금만 주고, 드물고 어려운 표정 (드문 Action Unit) 을 맞출 때는 엄청난 점수를 줍니다. 이렇게 해서 AI 가 게으르게 "모든 게 무표정이다"라고 답하는 것을 막고, 진짜 중요한 감정을 찾아내게 합니다.

🏆 결과: 왜 이 연구가 중요한가요?

이 팀이 만든 AI 는 **세계적인 대회 (10th ABAW)**에서 1 위를 차지했습니다.

  • 기존: "얼굴이 비스듬하거나 소음이 많으면 표정을 못 읽어요."
  • 이 연구: "야생에서도 마이크로 표정숨소리를 연결해서, 오래된 영상까지 기억하며 감정을 정확히 읽습니다."

한 줄 요약:

"이 AI 는 단순히 얼굴을 보는 게 아니라, 소리를 듣고 미세한 근육 움직임을 연결하며, 드문 감정을 놓치지 않도록 훈련된 초고성능 감정 분석가입니다."

이 기술은 향후 로봇이 사람의 감정을 더 자연스럽게 이해하거나, 심리 치료 보조 도구, 혹은 더 정교한 인간 - 컴퓨터 상호작용 시스템에 쓰일 수 있을 것입니다.