Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"야생에서 사람의 미세한 표정 변화를 AI가 어떻게 정확히 읽을 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

기존의 AI 는 실험실처럼 깨끗한 환경에서는 잘 작동하지만, 실제 세상 (야생) 에서 얼굴이 비스듬하거나, 빛이 어둡거나, 소음이 섞이면 표정을 잘 못 읽었습니다. 이 연구팀은 이를 해결하기 위해 세 가지 핵심 아이디어를 섞어 새로운 AI 를 만들었습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴겠습니다.

🎬 영화 한 편을 보는 새로운 방식: "세 명의 전문가 팀"

이 연구팀은 AI 를 단순히 카메라로 찍는 기계가 아니라, 세 명의 전문가가 협력하는 영화 제작 팀처럼 설계했습니다.

1. 초고해상도 카메라와 녹음기 (Foundation Models)

기존 방식: 일반적인 카메라와 녹음기를 썼습니다. 얼굴 전체는 잘 찍히지만, 입꼬리가 1 밀리미터 올라가는 미세한 변화나 숨소리 같은 건 놓치기 쉽습니다.
이 연구팀의 방식:
- 눈 (DINOv2): 마치 마이크로스코프가 달린 초고해상도 카메라처럼 작동합니다. 얼굴 전체를 보면서도 "눈썹이 살짝 떨리는 것"이나 "입술 끝의 미세한 떨림" 같은 아주 작은 디테일까지 놓치지 않고 포착합니다.
- 귀 (WavLM): 일반적인 녹음기는 "말하는 내용 (텍스트)"만 중시해서 숨소리나 한숨을 '잡음'으로 지워버립니다. 하지만 이 팀은 감정 녹음기를 썼습니다. "아, 숨을 깊게 들이마셨다", "목소리가 떨렸다" 같은 **말하지 않은 감정 신호 (비언어적 소리)**를 잡아냅니다.

2. 지휘자의 역할: "전체와局部的을 연결하다" (Hierarchical Granularity Alignment)

문제: 카메라가 너무 멀리서 찍으면 얼굴 전체는 보이지만 표정은 흐릿하고, 너무 가까이서 찍으면 (예: 입만) 얼굴이 어디 있는지 모릅니다.
해결책 (HGA): 이 팀은 지휘자를 세웠습니다.
- 지휘자는 얼굴의 **전체적인 분위기 (머리 각도, 조명)**를 보면서도, 동시에 **특정 부위 (눈, 입)**에 초점을 맞춥니다.
- 마치 연극에서 배우가 "전체 무대"를 보면서도 "손가락 하나 움직이는 연기"를 동시에 연기하듯, AI 가 큰 그림과 작은 디테일을 동시에 이해하게 해줍니다.

3. 시간의 흐름을 읽는 마법: "소리를 보고 미래를 예측하다" (Audio-Guided State Space Model)

문제: 표정은 순간이 아니라 시간의 흐름입니다. 기존 AI 는 짧은 시간만 기억해서, "화가 나기 시작해서 울음으로 변하는" 긴 과정을 놓치기 일쑤였습니다.
해결책 (AG-SSM):
- 이 팀은 소리를 보고 시각을 조절하는 마법을 썼습니다.
- 비유: 사람이 화를 낼 때, 먼저 "숨을 크게 들이마시는 소리"가 나옵니다. 이 AI 는 그 **소리 (비언어적 단서)**를 먼저 듣고, "아, 이제 표정이 변할 거야!"라고 미리 준비합니다.
- 또한, 무한한 기억력을 가졌습니다. 기존 AI 는 오래된 영상을 보면 기억이 사라졌지만, 이 AI 는 O(N) 선형 복잡도라는 기술을 써서 영상을 처음부터 끝까지 끊김 없이 기억하며, 소리에 맞춰 중요한 순간만 집중합니다.

4. 편견을 깨는 점수제: "드문 사건을 더 중요하게 여기다" (Asymmetric Loss)

문제: 대부분의 영상은 "무표정 (중립)"입니다. AI 는 "무표정"이라고만 답해도 점수를 많이 받을 수 있어, 진짜 중요한 "화남", "슬픔" 같은 드문 표정은 무시하고 넘어가버립니다.
해결책 (ASL):
- 비유: 시험에서 "무표정" 문제는 1 점, "드문 표정" 문제는 100 점으로 점수를 다르게 매긴 것입니다.
- AI 가 "무표정"을 맞출 때는 점수를 조금만 주고, 드물고 어려운 표정 (드문 Action Unit) 을 맞출 때는 엄청난 점수를 줍니다. 이렇게 해서 AI 가 게으르게 "모든 게 무표정이다"라고 답하는 것을 막고, 진짜 중요한 감정을 찾아내게 합니다.

🏆 결과: 왜 이 연구가 중요한가요?

이 팀이 만든 AI 는 **세계적인 대회 (10th ABAW)**에서 1 위를 차지했습니다.

기존: "얼굴이 비스듬하거나 소음이 많으면 표정을 못 읽어요."
이 연구: "야생에서도 마이크로 표정과 숨소리를 연결해서, 오래된 영상까지 기억하며 감정을 정확히 읽습니다."

한 줄 요약:

"이 AI 는 단순히 얼굴을 보는 게 아니라, 소리를 듣고 미세한 근육 움직임을 연결하며, 드문 감정을 놓치지 않도록 훈련된 초고성능 감정 분석가입니다."

이 기술은 향후 로봇이 사람의 감정을 더 자연스럽게 이해하거나, 심리 치료 보조 도구, 혹은 더 정교한 인간 - 컴퓨터 상호작용 시스템에 쓰일 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

야외 (In-the-wild) 환경에서의 얼굴 행동 단위 (Action Unit, AU) 감지는 감정 인식 및 인간 - 컴퓨터 상호작용의 핵심 요소이나, 다음과 같은 심각한 도전 과제에 직면해 있습니다.

심각한 시공간 이질성: 통제된 실험실 환경과 달리, 야외 환경에서는 조명 변화, 자유로운 머리 자세 (Pose), 복잡한 가림 (Occlusion) 등이 빈번하게 발생합니다.
기존 방법론의 한계:
- 특징 추출의 부족: 기존 CNN 기반 인코더는 미세한 근육 움직임 (예: 입꼬리 살짝 올림) 을 포착하기 위한 공간 해상도를 잃기 쉽습니다. 또한, 기존 음성 처리 (ASR) 모델은 언어적 내용 추출에 최적화되어 있어, 감정을 나타내는 비언어적 단서 (숨소리, 숨쉬기, 음조 변화 등) 를 '노이즈'로 간주하여 제거합니다.
- 시간적 모델링의 제약: 전통적인 시계열 합성곱 네트워크 (TCN) 는 수용 영역 (Receptive Field) 이 제한되어 긴 비디오 스트림에서의 장기 의존성을 포착하지 못합니다. Transformer 는 시퀀스 길이에 따라 $O(T^2)$ 의 계산 복잡도를 가져 긴 시퀀스 처리에 비효율적입니다.
- 다중 모달 융합의 피상성: 기존 접근법은 오디오와 비주얼 데이터를 단순 선형 가중치로 융합하여, 서로 밀접하게 얽힌 비언어적 단서와 미세한 시각적 움직임을 동기화하지 못합니다.
- 데이터 불균형: AU 데이터는 특정 행동이 드물게 발생하는 '장꼬리 (Long-tailed)' 분포를 보이며, 기존 손실 함수는 다수 클래스 (중립 표정) 에 편향되어 희귀 AU 감지 성능이 낮습니다.

2. 제안된 방법론 (Methodology)

저자들은 **계층적 세분성 정렬 (Hierarchical Granularity Alignment, HGA)**과 **상태 공간 모델 (State Space Model, SSM)**을 기반으로 한 새로운 다중 모달 프레임워크를 제안합니다.

2.1. 강인한 특징 추출을 위한 파운데이션 모델 (Foundation Models)

시각 (Visual): 전통적인 CNN 대신 DINOv2 (자기지도 학습 비전 트랜스포머) 를 사용합니다. DINOv2 는 이미지 및 패치 수준에서 특징을 정렬하도록 학습되어, 제한된 태스크 파인튜닝 없이도 국소적인 고주파 세부 사항 (미세 표정) 과 의미론적 일관성을 포착합니다.
오디오 (Audio): 언어적 내용 추출에 치중된 ASR 모델 대신 WavLM을 사용합니다. WavLM 은 마스킹 음성 예측 및 고급 노이즈 제거 모델링으로 사전 훈련되어, 비언어적 단서 (숨소리, 음조 변화 등) 를 포함한 강인한 음성 표현을 추출합니다.

2.2. 계층적 세분성 정렬 (Hierarchical Granularity Alignment, HGA)

목적: 전역적인 얼굴 의미 (Global Semantics) 와 국소적인 활성 패치 (Local Active Patches) 간의 정렬을 통해 극단적인 자세 변화와 가림을 처리합니다.
구현:
1. 랜드마크 기반 로컬 추출: 얼굴 랜드마크를 사용하여 눈, 입, 눈썹 등 해부학적으로 정의된 관심 영역 (RoI) 을 추출하고, DINOv2 의 패치 토큰을 평균 풀링하여 로컬 특징을 생성합니다.
2. 어텐션 기반 정렬: 로컬 특징이 가림이나 자세 변화로 인해 손상될 경우, 멀티헤드 크로스 어텐션 (MHCA) 을 통해 로컬 특징이 전역 얼굴 맵 (Global Feature Map) 에서 보완적인 문맥을 동적으로 검색하도록 합니다.
3. 융합: 정렬된 로컬 특징, 원본 로컬 특징, 전역 문맥을 결합하여 최종 시각 표현을 생성합니다.

2.3. 오디오 유도 선택적 상태 공간 모델 (Audio-Guided SSM, AG-SSM)

비전 - 마바 (Vision-Mamba) 아키텍처: 기존 TCN 의 수용 영역 한계와 Transformer 의 계산 비용 문제를 해결하기 위해, 선형 복잡도 $O(N)$ 을 가지며 무한한 수용 영역을 가진 상태 공간 모델 (SSM) 을 도입합니다.
오디오 유도 메커니즘: 오디오 신호 (예: 숨쉬기, 탄식) 가 시각적 근육 운동에 선행하거나 동반되는 특성을 활용합니다.
- 오디오와 비주얼 특징을 결합하여 SSM 의 선택 파라미터 ( $\Delta, B, C$ ) 를 동적으로 생성합니다.
- 중요한 오디오 단서가 감지되면 시각 상태가 현재 프레임을 강하게 집중하도록 게이트를 조절하고, 그렇지 않으면 과거 상태를 유지하도록 합니다.
- 이를 통해 오디오 단서가 시각적 흐름의 시간적 상태 전이를 동적으로 조절하여 정밀한 동기화를 달성합니다.

2.4. 비대칭 손실 함수 (Asymmetric Loss, ASL)

문제 해결: AU 데이터의 심각한 클래스 불균형 (희귀 AU vs 중립 표정) 을 해결합니다.
전략:
- 양수 샘플 (희귀 AU) 과 음수 샘플 (중립) 에 대해 서로 다른 포커싱 파라미터 ( $\gamma_+, \gamma_-$ ) 를 적용합니다.
- 비대칭 확률 이동 (Asymmetric Probability Shifting): 예측 확률이 마진 ( $m$ ) 이하인 음수 샘플의 손실 기여도를 0 으로 만들어, 네트워크가 모호하거나 분류하기 어려운 프레임에 집중하도록 유도합니다.

3. 주요 기여 (Key Contributions)

파운데이션 모델 기반의 새로운 프레임워크: 제한된 용량의 기존 인코더를 DINOv2 와 WavLM 으로 대체하여, 야외 환경의 미세한 시각적/비언어적 특징을 고충실도로 추출합니다.
계층적 정렬 및 심층 융합: 얼굴 랜드마크를 지리적 사전 지식으로 활용하여 전역/로컬 특징을 정렬하고, 비대칭 크로스 어텐션 메커니즘을 통해 오디오와 비주얼을 심층적으로 동기화합니다.
초장기 시간적 모델링: Vision-Mamba 아키텍처를 AU 감지 파이프라인에 도입하여 선형 복잡도로 초장기 시간 의존성을 모델링하는 병목 현상을 해결했습니다.
성능 기록 달성: Aff-Wild2 데이터셋에서 기존 베이스라인을 크게 상회하는 성능을 달성했으며, 제 10 회 ABAW (Affective Behavior Analysis in-the-wild) 대회 AU 감지 트랙에서 1 위를 차지했습니다.

4. 실험 결과 (Results)

데이터셋: Aff-Wild2 (야외 환경의 다중 모달 데이터셋).
평가 지표: 12 개 행동 단위 (AU) 에 대한 평균 F1 점수.
주요 성과:
- 베이스라인 대비: 표준 ViT + Whisper + TCN + BCE 손실을 사용한 베이스라인 (36.50%) 대비 제안 모델은 **59.45%**의 F1 점수를 기록했습니다.
- 개별 모듈 기여도:
  - 파운데이션 모델 (DINOv2, WavLM) 도입: +15.91% 향상.
  - HGA 모듈 추가: +2.77% 추가 향상.
  - AG-SSM 도입: +2.64% 추가 향상.
  - ASL 적용: 최종 성능을 극대화하여 클래스 불균형 문제를 해결.
결론: 제안된 프레임워크는 공간 - 시간적 이질성과 클래스 불균형을 동시에 해결하여 새로운 SOTA(State-of-the-Art) 기준을 수립했습니다.

5. 의의 및 의의 (Significance)

이 논문은 야외 환경에서의 정서적 행동 분석 분야에서 다음과 같은 중요한 진전을 이루었습니다:

모델 아키텍처의 패러다임 전환: 전통적인 CNN/TCN 기반 접근에서 파운데이션 모델과 상태 공간 모델 (Mamba) 로의 전환을 통해, 복잡한 야외 환경에서의 미세한 감정 표현 감지 능력을 획기적으로 향상시켰습니다.
다중 모달 상호작용의 심화: 오디오가 시각적 시간적 모델링을 능동적으로 조절하는 메커니즘을 통해, 비언어적 단서와 시각적 움직임을 보다 자연스럽고 정밀하게 통합했습니다.
실용적 가치: 희귀 행동 단위 (Rare AU) 에 대한 재현율 (Recall) 을 높여, 실제 임상 및 인간 - 로봇 상호작용 등 정밀한 감정 분석이 필요한 분야에서 실용성을 입증했습니다.

요약하자면, 이 연구는 DINOv2/WavLM 기반의 고충실도 특징 추출, HGA 를 통한 다중 스케일 정렬, AG-SSM 을 통한 오디오 유도 초장기 시간 모델링, 그리고 ASL 을 통한 불균형 데이터 해결을 결합하여 야외 AU 감지 문제의 핵심 난제를 해결한 획기적인 작업입니다.