Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"야생 (Real-world) 에서 감정을 읽는 AI 가 눈이 가려지거나 소리가 들리지 않을 때에도 어떻게 똑똑하게 판단할 수 있는지"**에 대한 해결책을 제시합니다.

마치 감정 분석 전문가가 시끄러운 파티에서 친구의 표정을 읽으려 할 때, 친구가 손을 들어 얼굴을 가리거나 마이크가 고장 나더라도 목소리 톤으로 감정을 추측해내는 능력을 키우는 기술이라고 생각하시면 됩니다.

이 기술의 핵심 내용을 쉬운 비유로 설명해 드릴게요.

1. 문제 상황: "눈이 가려진 친구를 어떻게 알까?"

실제 세상 (야생) 에서 감정을 분석하는 것은 매우 어렵습니다.

눈이 가려짐: 친구가 머리를 돌리거나, 손으로 얼굴을 가리거나, 조명이 어두우면 AI 는 표정을 못 봅니다.
소리가 들리지 않음: 주변이 시끄러우면 목소리 톤도 못 듣습니다.
데이터 불균형: "화남", "기쁨" 같은 흔한 감정은 많지만, "혐오"나 "공포" 같은 드문 감정은 데이터가 거의 없습니다. (마치 학교 시험에서 쉬운 문제만 많이 나와서, 어려운 문제는 전혀 못 푸는 것과 비슷합니다.)

기존의 AI 는 눈 (영상) 이 안 보이면 당황해서 엉뚱한 답을 내놓거나, 드문 감정들은 아예 무시해버렸습니다.

2. 이 팀의 해결책: "안전한 교차 주의 (Safe Cross-Attention)"와 "모드 드롭아웃"

이 팀은 **두 명의 전문가 (영상 전문가와 음성 전문가)**가 팀을 이루어 일하는 시스템을 만들었습니다.

🎭 비유 1: "안전한 교차 주의" (Safe Cross-Attention)

보통 AI 는 영상과 소리를 섞어볼 때, 한쪽이 없으면 전체 시스템이 망가집니다. 하지만 이 팀은 **"안전장치"**를 달았습니다.

상황: 친구가 갑자기 카메라 밖으로 나가 얼굴이 안 보일 때.
기존 AI: "얼굴이 없는데? 어떡하지? 아무거나 찍어보자!" (실수 발생)
이 팀의 AI: "아, 얼굴이 안 보이네? 그럼 목소리 전문가가 모든 판단을 맡아라!"라고 자동으로 권한을 넘겨줍니다.
핵심: 영상 데이터가 사라져도 시스템이 멈추지 않고, 음성 데이터만으로 자연스럽게 판단을 이어갑니다. 이를 **'안전한 교차 주의'**라고 부릅니다.

🎲 비유 2: "모드 드롭아웃" (Modality Dropout)

이 시스템은 훈련할 때 고의로 눈을 가리는 연습을 합니다.

연습 방법: 훈련 중 일부는 영상 데이터를 임의로 지워버립니다 (눈을 가림).
효과: AI 는 "아, 내가 눈이 가려져도 목소리로 감정을 알아낼 수 있구나!"라고 스스로 학습하게 됩니다.
결과: 실제 시험 (야생 환경) 에서 친구가 얼굴을 가려도 당황하지 않고 목소리 톤으로 감정을 잘 읽어냅니다.

3. 드문 감정을 잡는 비법: "포커스 손실 (Focal Loss)"

데이터가 불균형한 문제를 해결하기 위해 교수님의 채점 방식을 바꿨습니다.

기존 방식: 흔한 감정 (기쁨, 슬픔) 을 맞출 때 점수를 많이 주고, 드문 감정을 맞출 때는 점수를 적게 줍니다. → AI 는 "흔한 감정만 맞으면 되겠다"라고 생각해서 드문 감정을 무시합니다.
이 팀의 방식 (포커스 손실): "너무 쉬운 문제 (흔한 감정) 는 점수를 줄이고, 어려운 문제 (드문 감정) 를 맞출 때 점수를 대폭 올려준다"고 규칙을 바꿨습니다.
결과: AI 는 드문 감정들을 맞추기 위해 더 열심히 공부하게 되어, 전체적인 정확도가 올라갑니다.

4. 흔들림 없는 판단: "슬라이딩 윈도우와 부드러운 투표"

감정은 갑자기 바뀌지 않고, 천천히 흐릅니다. 하지만 AI 가 매 프레임 (매 순간) 을 따로따로 판단하면 "기쁨 → 슬픔 → 기쁨"처럼 결과가 자꾸 뒤죽박죽이 될 수 있습니다.

해결책: 1 초 단위로 끊어보는 게 아니라, **중첩된 창 (Sliding Window)**을 만들어 여러 순간을 함께 봅니다.
비유: 한 번의 결정이 아니라, 여러 친구들이 모여서 "지금 친구 표정이 뭐 같아?"라고 의논한 뒤, 그 결과를 부드럽게 평균내서 최종 답을 내립니다.
효과: 감정이 바뀔 때의 급격한 흔들림 (Jitter) 을 줄여서, 훨씬 자연스러운 감정 흐름을 보여줍니다.

🏆 결론: 이 기술이 이룬 성과

이 팀은 위 방법들을 모두 합쳐서 **ABAW(야생 감정 분석 대회)**라는 큰 대회에서 **정확도 60.79%**라는 훌륭한 성적을 거두었습니다.

한 줄 요약:

"이 기술은 AI 에게 '눈이 가려져도 목소리로, 소리가 안 들려도 표정으로' 감정을 읽는 능력을 훈련시키고, 드문 감정들도 놓치지 않도록 가르쳐서, 실제 세상에서도 흔들리지 않는 감정 분석 전문가를 만든 것입니다."

이 기술은 앞으로 로봇이 사람의 감정을 더 잘 이해하거나, 정신 건강을 모니터링하는 앱, 그리고 더 자연스러운 인간-기계 상호작용을 만드는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 10 차 ABAW 감정 인식 챌린지 솔루션

1. 문제 정의 (Problem)

실제 환경 (In-the-wild) 에서의 감정 인식은 다음과 같은 주요 난제들로 인해 성능 저하가 발생합니다.

부분적 가림 및 모달리티 손실: 실제 비디오 촬영 중 피사체가 카메라 시야를 벗어나거나 (Exit), 심각한 가림 (Occlusion) 이 발생하여 시각적 정보가 손실되는 경우가 빈번합니다.
심한 클래스 불균형 (Class Imbalance): Aff-Wild2 와 같은 대규모 데이터셋은 특정 감정 (다수 클래스) 에 편향되어 있고, 희귀 감정 (소수 클래스/Long-tail) 은 데이터가 부족하여 모델이 편향된 학습을 하게 됩니다.
복잡한 환경적 요인: 조도 변화, 다양한 머리 자세, 문화적 차이 등으로 인한 노이즈가 모델의 일반화 능력을 저해합니다.

기존의 다중 모달 (Multimodal) 접근법들은 모든 모달리티가 지속적으로 존재한다고 가정하는 경우가 많아, 시각 정보가 손실될 때 성능이 급격히 떨어지는 한계가 있었습니다.

2. 제안된 방법론 (Methodology)

저자들은 시각 (Visual) 과 오디오 (Audio) 정보를 동적으로 융합하여 위 문제들을 해결하는 강건한 멀티모달 프레임워크를 제안했습니다. 주요 구성 요소는 다음과 같습니다.

이중 분기 트랜스포머 아키텍처 (Dual-branch Transformer):
- 시각 특징 추출: BEiT-large 모델을 사용하여 고수준의 얼굴 맥락 정보를 추출합니다. (Raf-DB, FERPlus, AffectNet 등 대규모 정적 데이터셋으로 사전 학습 후 Aff-Wild2 에 도메인 적응 fine-tuning 수행)
- 오디오 특징 추출: WavLM-large 모델을 사용하여 음성의 억양과 미세한 감정 변화를 포착합니다.
- 정렬 및 융합: 시계열 정렬을 위해 선형 프로젝션과 위치 인코딩을 적용한 후, 양방향 Cross-Attention 을 통해 시각과 오디오 간의 상호작용을 학습합니다.
안전한 교차 주의 메커니즘 (Safe Cross-Attention) 및 모달리티 드롭아웃:
- 문제 해결: 시각 정보가 완전히 손실된 경우 (예: 얼굴이 화면 밖으로 나감), 소프트맥스 함수가 유효하지 않은 값을 생성하는 것을 방지합니다.
- 메커니즘: 시각 특징이 완전히 누락된 윈도우에서는 Attention 출력 값을 강제로 0 으로 설정하고, 잔류 연결 (Residual Connection) 을 통해 네트워크가 오디오 분기에만 의존하도록 자연스럽게 전환 (Graceful Degradation) 됩니다.
- 훈련 전략: 학습 중 일정 확률 ( $p$ ) 로 시각 입력을 드롭아웃하여, 모델이 시각 정보에 과도하게 의존하지 않고 오디오 정보로도 추론할 수 있도록 강제로 훈련시킵니다.
손실 함수 최적화 (Focal Loss):
- Aff-Wild2 의 심한 클래스 불균형을 해결하기 위해 표준 교차 엔트로피 대신 Focal Loss를 적용했습니다. 이는 분류가 쉬운 다수 클래스의 가중치를 줄이고, 학습이 어려운 소수 클래스 (Long-tail) 에 집중하도록 유도합니다.
추론 전략 (Sliding Window & Soft Voting):
- 긴 비디오 시퀀스의 감정 변화를 포착하기 위해 겹치는 슬라이딩 윈도우 ( $W=64, S=8$ ) 를 사용합니다.
- 프레임 단위의 경직된 라벨 투표 대신, 인접 윈도우의 예측 로짓 (Logits) 을 평균화하는 **소프트 투표 (Soft Voting)**와 **중앙값 필터링 (Median Filtering)**을 적용하여 프레임 단위 분류의 흔들림 (Jitter) 을 줄이고 감정 전이를 매끄럽게 만듭니다.

3. 주요 기여 (Key Contributions)

손실 모달리티에 대한 강건성: 시각 정보가 완전히 사라진 상황에서도 오디오 정보만으로 안정적인 감정을 예측할 수 있도록 설계된 '안전한 교차 주의' 메커니즘을 도입했습니다.
불균형 데이터 처리: Focal Loss 와 클래스 가중치를 결합하여 Aff-Wild2 데이터셋의 Long-tail 분포 문제를 효과적으로 완화했습니다.
동적 융합 전략: 학습 시 모달리티 드롭아웃을 통해 모델이 단일 모달리티에 의존하는 것을 방지하고, 추론 시에는 오디오가 시각을 보완하는 역할을 수행하도록 최적화했습니다.
시간적 일관성 확보: 슬라이딩 윈도우와 소프트 보팅을 통해 실제 자연스러운 감정 변화에 부합하는 매끄러운 예측 시퀀스를 생성했습니다.

4. 실험 결과 (Results)

Aff-Wild2 검증 세트 (Validation Set) 에서의 실험 결과는 다음과 같습니다.

성능: 정확도 (Accuracy) 60.79%, F1-Score 0.5029를 기록하여 기존 방법론들을 상회하는 성능을 보였습니다.
아키텍처 분석:
- 모달리티 드롭아웃: 드롭아웃 확률 $p=0.10$ 일 때 가장 좋은 성능을 보였습니다. ( $p=0$ 일 때 F1 0.4764 → $p=0.10$ 일 때 F1 0.5029). 이는 시각 정보 손실에 대한 내성을 높여주었습니다.
- 모델 용량: 너무 큰 모델 (깊이 증가 또는 차원 증가) 은 오히려 과적합 (Overfitting) 을 유발하여 성능이 저하되었습니다. ( $d=256, l=3$ 구성이 최적의 균형점).
- 모달리티 기여도: 시각 정보가 주된 모달리티이지만, 오디오가 시각 정보가 부족한 상황에서 필수적인 보조 정보를 제공함을 확인했습니다.

5. 의의 및 결론 (Significance)

이 연구는 실제 환경에서의 감정 인식 시스템이 직면한 데이터 노이즈, 모달리티 손실, 클래스 불균형이라는 세 가지 핵심 과제를 통합적으로 해결하는 프레임워크를 제시했습니다.

특히, 시각 정보가 완전히 차단된 상황에서도 시스템이 붕괴되지 않고 오디오에 기반한 예측을 유지할 수 있는 고장 허용 (Fault-tolerant) 능력을 입증했습니다.
이는 감성 컴퓨팅 (Affective Computing) 분야에서 실제 적용 가능한 (Real-world deployable) 강건한 모델 설계의 중요한 이정표가 되며, 향후 레이블이 없는 대규모 자연주의 비디오를 활용한 자기지도 학습 (Self-supervised Learning) 으로 확장할 수 있는 방향성을 제시합니다.