Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "말은 그렇지만, 표정은 anders?"

사람이 어떤 결정을 내릴 때 망설이거나 갈등하는 상태는 매우 미묘합니다.

입으로는 "네, 좋아요"라고 말하지만,
얼굴 표정은 어색하게 굳어있고,
목소리 톤은 떨리며,
주변 배경이나 몸짓에서도 불안함이 느껴질 수 있습니다.

기존의 AI 는 이런 '미묘한 신호'를 한 가지 정보 (예: 얼굴만 보거나 목소리만 듣기) 로 판단하려다 실패했습니다. 마치 실제 사람을 만나 대화할 때, 상대방의 말만 듣고 "아, 이 사람은 진짜로 기뻐하는구나"라고 단정 짓는 것과 비슷합니다. 하지만 실제로는 표정이 굳어있거나 목소리가 떨릴 수 있죠.

🕵️‍♂️ 2. 해결책: "4 명의 탐정 팀" (다중 모달 접근)

팀 LEYA 는 이 문제를 해결하기 위해 4 명의 전문 탐정으로 구성된 팀을 꾸렸습니다. 각 탐정은 서로 다른 정보를 수집합니다.

배경 탐정 (Scene): 사람의 얼굴이 아니라, 주변 환경과 상황을 봅니다. (예: 회의실인지, 카페인지, 배경이 혼란스러운지 등)
얼굴 탐정 (Face): 사람의 표정 변화를 세세하게 분석합니다. (미묘한 눈썹 떨림, 입꼬리 움직임 등)
목소리 탐정 (Audio): 말의 톤, 속도, 떨림을 분석합니다. (말은 긍정적이지만 목소리에 불안감이 섞여 있는지)
문서 탐정 (Text): 사람이 **무엇을 말했는지 (대본)**를 분석합니다. (문장 구조, 단어 선택에서 오는 갈등)

이 4 명의 탐정은 각각 자신의 분야에서 최고의 전문가 (최신 AI 모델) 로 훈련되었습니다.

🧩 3. 핵심 기술: "회의실에서의 토론" (융합 및 프로토타입)

각 탐정이 수집한 정보를 단순히 합치는 게 아니라, 지혜로운 회의를 엽니다.

단순 합치기 vs. 심층 토론:
기존 방식은 4 명의 의견을 그냥 섞는 것이었다면, 이 연구팀은 **변환기 (Transformer)**라는 기술을 써서 4 명이 서로의 의견을 주고받으며 "아, 이 사람은 말은 좋지만 표정이 굳어있네? 그럼 망설이는 거겠구나"라고 상호작용을 통해 결론을 내립니다.
프로토타입 (Prototype) 의 역할:
여기서 가장 재미있는 비유가 나옵니다. AI 는 **'완벽한 갈등하는 사람'의 이미지 (프로토타입)**를 머릿속에 16 개 정도 가지고 있습니다.
- 회의 결과를 내기 전, AI 는 "지금 이 사람의 모습이 우리 머릿속에 있는 '갈등하는 사람' 이미지 중 어느 것과 가장 닮았을까?"라고 비교합니다.
- 이 비교 과정을 통해 AI 는 단순히 "아니요"라고 답하는 게 아니라, **"이 사람은 갈등하는 패턴과 80% 비슷해!"**라고 더 정교하게 판단하게 됩니다.

🏆 4. 결과: "혼자보다 함께가 낫다"

연구팀은 이 방법을 BAH 라는 데이터셋 (실제 사람들이 갈등하는 상황을 담은 영상) 으로 테스트했습니다.

한 명만 봤을 때:
- '문서 탐정 (텍스트 분석)'이 가장 잘했습니다. (약 70% 정확도)
- 하지만 '배경 탐정'이나 '얼굴 탐정'만으로는 60% 대에 그쳤습니다.
4 명이 함께했을 때:
- 4 명이 정보를 공유하고 토론한 결과, 정확도가 83% 이상으로 급상승했습니다.
- 특히 **5 개의 팀을 모아 투표하는 방식 (앙상블)**을 쓰자, 최종 대회에서 **71.43%**라는 최고의 성적을 거뒀습니다.

💡 5. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"사람의 마음을 읽을 때는 한 가지 정보만 믿으면 안 된다"**는 것을 증명했습니다.

일상적인 비유:
친구가 "나 괜찮아"라고 말해도, 표정이 어색하고 목소리가 떨린다면 우리는 "아, 친구가 힘든구나"라고 알 수 있습니다. 이 연구는 AI 가 바로 그런 비언어적 신호와 언어적 신호의 불일치를 포착하도록 가르친 것입니다.
실제 활용:
이 기술은 디지털 헬스케어나 교육 분야에서 유용합니다. 예를 들어, AI 상담사가 사용자의 반응에서 "이 사람은 지금 결정을 내리기 힘들어하고 있구나"라고 감지하면, 더 부드럽게 도와주거나 추가 정보를 제공할 수 있게 됩니다.

한 줄 요약:

"이 연구는 AI 가 사람의 말, 표정, 목소리, 배경을 모두 종합적으로 분석해, '말로는 그렇지만 속으로는 망설이는' 미묘한 심리 상태를 찾아내는 새로운 방법을 개발했습니다. 마치 4 명의 전문가가 모여서 서로의 의견을 종합해 가장 정확한 결론을 내리는 것과 같습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 10 차 ABAW 경진대회를 위한 팀 LEYA 의 다중 모달 모호성/주저 인식 접근법

1. 문제 정의 (Problem)

이 논문은 제 10 차 ABAW (Affective & Behavior Analysis in-the-Wild) 경진대회의 핵심 과제인 비디오 수준의 모호성/주저 (Ambivalence/Hesitancy, A/H) 인식 문제를 다룹니다.

배경: 모호성과 주저는 인간의 행동 변화 과정에서 결정의 불확실성, 저항, 동기 부재를 나타내는 중요한 신호입니다. 디지털 행동 건강 개입 등에서 사용자의 참여 의지나 이탈 위험을 파악하는 데 필수적입니다.
난이도: A/H 는 기본 감정 (기쁨, 놀라움 등) 과 달리 미묘하며, 맥락에 의존적입니다. 또한, 말 (텍스트), 말투 (오디오), 표정 (얼굴) 등 서로 다른 모달리티 간의 불일치 (예: 긍정적으로 말하지만 표정이 불안함) 로 인해 나타나기 때문에 본질적으로 다중 모달 (Multimodal) 문제입니다.
목표: 제한되지 않은 환경 (Unconstrained) 에서 촬영된 비디오가 A/H 상태를 포함하는지 여부를 이진 분류 (Binary Classification) 로 예측하는 것입니다.

2. 방법론 (Methodology)

팀 LEYA 는 사실 (Scene), 얼굴 (Face), 오디오 (Audio), 텍스트 (Text) 의 4 가지 상보적인 모달리티를 통합하는 다중 모달 접근법을 제안했습니다. 전체 파이프라인은 다음과 같습니다.

가. 단일 모달리티 모델 (Unimodal Models)
각 모달리티별로 전용 모델을 학습하여 컴팩트한 임베딩을 추출합니다.

장면 기반 시각 모델 (Scene-based Visual Model):
- 아키텍처: Kinetics-400 데이터셋으로 사전 학습된 VideoMAE (Vision Transformer 기반) 사용.
- 처리: 비디오에서 16 프레임을 균일하게 샘플링하여 시공간적 의존성을 모델링하고, 전역 평균 풀링 (Global Average Pooling) 을 통해 장면 임베딩을 생성합니다.
얼굴 기반 시각 모델 (Face-based Visual Model):
- 처리: YOLO 기반 얼굴 탐지기를 사용하여 얼굴을 추출 (다중 얼굴 시 가장 큰 박스 선택).
- 아키텍처: EmotionEfficientNetB0 (AffectNet+ 에서 미세 조정됨) 을 사용하여 프레임별 감정 임베딩을 추출합니다.
- 집계: 통계적 풀링 (Statistical Pooling, 평균 $\mu$ 및 분산 $\sigma$ ) 을 적용한 후 MLP 를 통과시켜 최종 얼굴 표현을 만듭니다.
음향 모델 (Acoustic Model):
- 아키텍처: MSP-Podcast 코퍼스로 미세 조정된 EmotionWav2Vec2.0을 사용하여 음향 특징을 추출합니다.
- 시퀀스 인코딩: 추출된 특징을 시퀀스 모델링하기 위해 Mamba (State Space Model) 인코더를 적용하고, 시간 차원 평균 풀링을 통해 컴팩트한 오디오 임베딩을 생성합니다. (Transformer 대안도 평가됨)
언어 모델 (Linguistic Model):
- 데이터: 자동 생성된 음성 전사본 (Transcripts) 사용.
- 아키텍처: EmotionDistilRoBERTa를 직접 A/H 인식 태스크에 맞게 미세 조정 (Fine-tuning) 하여 문맥화된 텍스트 임베딩을 생성합니다. (TF-IDF 및 기타 BERT 계열 모델도 비교 평가됨)

나. 다중 모달 퓨전 모델 (Multimodal Fusion Model)

프로젝션: 각 모달리티의 임베딩을 공유 잠재 공간 (Shared Latent Space) 으로 투영합니다.
퓨전 아키텍처: Transformer 기반 퓨전 모듈을 사용합니다. 모달리티 토큰에 학습 가능한 모달리티 임베딩을 추가하고, 가용한 모달리티에 대한 마스크 (Mask) 를 적용하여 자가 주의 (Self-Attention) 메커니즘을 통해 상호 의존성을 모델링합니다.
프로토타입 증강 (Prototype-Augmented):
- 학습된 퓨전 표현을 클래스별 학습 가능한 프로토타입 (Prototypes) 과 비교하여 보조 손실 함수 (Auxiliary Loss) 를 추가합니다.
- 이는 모델이 불확실성 하에서도 모달리티별 특징을 보존하고 더 강건한 결정을 내리도록 정규화 (Regularization) 하는 역할을 합니다.
앙상블: 최종 예측을 위해 5 개의 서로 다른 시드 (Seed) 로 학습된 프로토타입 증강 퓨전 모델의 결과를 평균내어 앙상블합니다.

3. 주요 기여 (Key Contributions)

4 모달리티 통합: 기존 연구들이 주로 얼굴, 오디오, 텍스트에 집중했던 것과 달리, 장면 (Scene) 정보를 명시적으로 통합하여 행동 역학과 맥락을 포착했습니다.
고급 퓨전 전략: 단순한 연결 (Concatenation) 이나 어텐션 퓨전을 넘어, Transformer 기반 퓨전과 프로토타입 기반 분류 목적 (Prototype-based Objective) 을 결합하여 모달리티 간 불일치를 효과적으로 처리했습니다.
강건한 앙상블: 단일 모델의 성능을 넘어, 5 개 모델 앙상블을 통해 테스트 세트에서의 일반화 성능을 극대화했습니다.
SOTA 성능 달성: BAH 코퍼스 (10 차 ABAW) 에서 기존 단일 모달리티 및 퓨전 베이스라인을 모두 능가하는 결과를 달성했습니다.

4. 실험 결과 (Results)

BAH 코퍼스 (1,427 개의 비디오, 300 명 참가자) 에서 수행된 실험 결과는 다음과 같습니다.

단일 모달리티 (Unimodal) 성능:
- 가장 강력한 단일 모달리티는 텍스트 (EmotionDistilRoBERTa) 였으며, 평균 MF1 (Macro F1-score) **70.02%**를 기록했습니다.
- 오디오 (69.03%), 얼굴 (62.67%), 장면 (61.96%) 순으로 성능이 낮았습니다. 이는 A/H 가 언어적 표현과 밀접하게 연관되어 있음을 시사합니다.
다중 모달 퓨전 (Multimodal Fusion) 성능:
- 개발/검증 세트: 프로토타입 증강 퓨전 모델 (4 모달리티 통합) 이 평균 MF1 **83.25%**를 기록하여 모든 단일 모달리티 베이스라인을 압도했습니다.
- 최종 테스트 세트: 5 개 프로토타입 증강 퓨전 모델의 앙상블이 최종 테스트에서 **71.43%**의 MF1 을 달성하여 1 위를 차지했습니다.
- 아블레이션 연구: 장면과 텍스트의 조합이 가장 강력한 상보적 신호를 제공했으며, 4 가지 모달리티를 모두 통합했을 때 가장 효과적인 성능을 보였습니다.

5. 의의 및 결론 (Significance)

다중 모달성의 중요성 재확인: A/H 인식은 단일 모달리티 (특히 텍스트) 에만 의존하기 어렵고, 서로 다른 모달리티 간의 상호작용과 불일치를 포착하는 것이 핵심임을 입증했습니다.
퓨전 전략의 진화: 단순한 특징 결합을 넘어, 프로토타입 기반 정규화와 Transformer 기반 어텐션을 활용한 정교한 퓨전 전략이 불확실성이 높은 환경에서 모델의 강건성을 높인다는 것을 보였습니다.
실용적 가치: 이 연구는 디지털 헬스케어, 교육, 보조 기술 등 인간의 미묘한 정서적 상태와 의사결정 과정을 이해해야 하는 분야에서 신뢰할 수 있는 AI 시스템 개발의 기반을 마련했습니다.

이 논문은 Team LEYA 가 제안한 접근법이 제한되지 않은 자연스러운 비디오 환경에서의 모호성/주저 인식 문제를 해결하는 데 있어 현재 가장 효과적인 방법론 중 하나임을 보여줍니다.

Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

🎬 1. 문제 상황: "말은 그렇지만, 표정은 anders?"

🕵️‍♂️ 2. 해결책: "4 명의 탐정 팀" (다중 모달 접근)

🧩 3. 핵심 기술: "회의실에서의 토론" (융합 및 프로토타입)

🏆 4. 결과: "혼자보다 함께가 낫다"

💡 5. 결론: 왜 이 연구가 중요할까요?

논문 요약: 10 차 ABAW 경진대회를 위한 팀 LEYA 의 다중 모달 모호성/주저 인식 접근법

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks