HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'ABAW-10'**이라는 거대한 컴퓨터 비전 대회에 참가한 HSEmotion 팀의 성과를 소개합니다. 쉽게 말해, "컴퓨터가 사람의 얼굴 표정, 감정, 그리고 폭력적인 행동을 얼마나 잘 알아차릴 수 있을까?"를 연구한 이야기입니다.

이 팀이 개발한 기술은 마치 **"똑똑하지만 성가신 일을 싫어하는 비서"**와 같습니다. 복잡한 일을 직접 다 하려고 노력하기보다, 이미 잘 훈련된 전문가의 도움을 받아 효율적으로 문제를 해결하는 방식입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.

1. 얼굴 표정, 감정, 행동 분석 (표정 인식, 감정 수치, 얼굴 근육 움직임)

비유: "유능한 감식관과 보조원의 팀워크"

이 팀은 사람의 얼굴을 보고 감정을 읽는 세 가지 작업을 했습니다.

표정 인식 (기쁨, 슬픔 등): "지금 이 사람은 웃고 있나?"
감정 수치 (Valence-Arousal): "얼마나 기분이 좋은가? 얼마나 흥분해 있는가?"
얼굴 근육 움직임 (Action Unit): "눈썹이 올라갔나? 입꼬리가 찢어졌나?"

이들이 쓴 방법:

전문가 (Pre-trained Model) 활용: 먼저, 수만 장의 사진으로 이미 감정을 잘 아는 '전문가 (EfficientNet 모델)'를 고용했습니다. 이 전문가는 얼굴을 보면 "아, 이건 행복해!"라고 매우 확신 있게 말합니다.
보조원 (MLP) 의 역할: 하지만 전문가는 가끔 헷갈리거나, 대회에서 요구하는 특정 감정 범주에 없는 경우 (예: '멸시' 같은 표정) 가 있습니다. 이때 전문가는 "내 확신이 90% 이상이야"라고 말하면 그 말을 그대로 믿습니다. 하지만 확신이 낮으면, **보조원 (MLP)**에게 넘깁니다. 보조원은 대회용 데이터 (AffWild2) 로만 훈련받아, 전문가가 헷갈릴 때를 보완해 줍니다.
노이즈 제거 (Smoothing): 사람이 감정을 표현할 때 한 프레임 (순간) 에 갑자기 표정이 바뀌는 것은 자연스럽지 않습니다. 마치 영화에서 한 장면을 볼 때, "아, 저 사람이 갑자기 화난 게 아니라 조금 전부터 화가 나고 있었구나"라고 이해하는 것처럼, 시간을 두고 평균을 내어 (Sliding Window) 예측을 부드럽게 다듬었습니다.
소리도 듣기: 얼굴만 보는 게 아니라, 목소리 (wav2vec) 도 함께 들어 감정을 더 정확히 파악했습니다.

결과: 복잡한 신경망을 다 쓸 필요 없이, 전문가와 보조원의 팀워크로 기존 방법들보다 훨씬 정확하고 빠르게 감정을 읽었습니다.

2. 미세한 폭력 행동 탐지 (Fine-Grained Violence Detection)

비유: "치안 카메라의 눈"

이 작업은 단순히 "누군가 화났나?"가 아니라, **"지금 폭력이 일어나고 있는가?"**를 전체 화면을 보고 판단하는 것입니다.

이들이 쓴 방법:

강력한 눈 (ConvNeXt-T): 폭력을 감지하려면 얼굴뿐만 아니라 몸짓, 배경, 사람 간의 상호작용까지 봐야 합니다. 이를 위해 ImageNet(수백만 장의 일반 사진) 으로 미리 훈련된 **'ConvNeXt-T'**라는 강력한 시력 (모델) 을 사용했습니다.
시간 흐름 파악 (TCN): 폭력은 순간이 아니라 흐름입니다. "주먹을 뻗고 -> 맞고 -> 넘어지는" 과정을 이어지는 시간의 흐름으로 이해해야 합니다. 이를 위해 **TCN(시간적 합성곱 네트워크)**이라는 도구를 써서 프레임들을 연결했습니다.
뼈대 (Skeleton) 정보 추가: 때로는 사람의 몸이 어떻게 움직이는지 (뼈대 정보) 를 분석하면 폭력을 더 잘 알아챌 수 있습니다. 이를 영상과 합쳐서 분석하기도 했습니다.

결과: 기존에 쓰이던 3D 비디오 분석 모델들보다, "강력한 2D 시력 + 간단한 시간 흐름 분석" 조합이 훨씬 더 정확하고 빠르게 폭력을 찾아냈습니다.

3. 이 연구의 핵심 가치 (왜 중요한가?)

이 팀의 접근법은 **"복잡함보다 실용성"**을 택했습니다.

기존 방식: 거대한 뇌 (초대형 AI) 를 만들어 모든 것을 한 번에 학습시키려 했음. → 무겁고, 계산 비용이 많이 들고, 구현하기 어려움.
이 팀의 방식: 이미 잘 훈련된 전문가를 활용하고, 간단한 규칙 (보조원, 시간 평균) 을 더해 가볍고 빠르며 정확한 시스템을 만듦.

마치:
거대한 슈퍼컴퓨터를 동원해 날씨가 바뀔 때마다 복잡한 계산을 하는 대신, 날씨를 잘 아는 노인이 (전문가) "오늘 비 올 것 같아"라고 말하면, 그 말을 믿고 우산을 챙기는 (보조원) 것과 같습니다. 비가 안 올 때도 있지만, 대부분의 상황에서 빠르고 정확하게 대처할 수 있습니다.

결론

이 논문은 **"무조건 큰 모델을 만드는 게 답이 아니다"**라는 것을 보여줍니다. 잘 훈련된 기존 모델을 활용하고, 데이터의 불균형 (예: 화난 표정은 많지만 슬픈 표정은 적은 경우) 을 보정하며, 시간의 흐름을 자연스럽게 다듬는 현실적이고 효율적인 방법이 실제 세상 (Wild) 에서 더 잘 작동한다는 것을 증명했습니다.

이 기술은 운전 중 피로도 감지, 정신 건강 모니터링, 혹은 유해 콘텐츠 필터링 등 우리 일상에 직접 적용될 수 있는 AI 의 미래를 엿보게 해 줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 제 10 회 ABAW (Affective Behavior Analysis in-the-Wild) 대회에 참가한 HSEmotion 팀의 연구 결과를 보고한 것입니다. 저자들은 프레임 단위의 얼굴 표정 인식 (EXPR), 정서적 가치 - 각성 (Valence-Arousal, VA) 추정, 행동 단위 (Action Unit, AU) 감지, 그리고 정밀한 폭력 분류 (Fine-Grained Violence Detection) 라는 4 가지 주요 태스크에서 기존 베이스라인을 크게 능가하는 성능을 달성한 방법을 제안했습니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

현대 컴퓨터 비전의 핵심 과제 중 하나인 '야외 환경 (In-the-Wild)'에서의 인간 정서 및 행동 이해입니다. 이러한 환경에서는 다음과 같은 어려움이 존재합니다.

데이터의 제약: 가려짐 (occlusion), 큰 자세 변화, 조명 변화, 도메인 시프트 (domain shift) 가 빈번함.
라벨의 불확실성: 노이즈가 많거나 모호한 주석 (annotation) 이 존재함.
불균형: 클래스 불균형 (특히 희귀한 감정 표현) 과 레이블 편향.
실용성 요구: 실시간 적용을 위한 계산 효율성과 시간적 일관성 (temporal consistency) 확보 필요.

ABAW-10 은 이러한 문제들을 해결하기 위해 4 가지 태스크를 제시했습니다:

EXPR: 프레임 단위의 8 가지 기본 감정 분류.
VA: 프레임 단위의 정서적 가치 (Valence) 와 각성 (Arousal) 연속값 추정.
AU: 12 가지 미세 표정 행동 단위 (Action Units) 의 다중 레이블 감지.
VD (Violence Detection): 비디오 전체 프레임을 분석하여 폭력/비폭력을 분류하는 정밀 태스크.

2. 제안된 방법론 (Methodology)

저자들은 복잡한 시계열 모델 대신 가벼운 아키텍처와 효율적인 파이프라인을 결합한 접근법을 사용했습니다.

A. 얼굴 분석 태스크 (EXPR, VA, AU)

사전 학습된 임베딩 추출: EmotiEffLib 라이브러리에 포함된 EfficientNet 기반 모델 (EmotiEffNet, MT-DDAMFN 등) 을 사용하여 각 프레임의 얼굴 영역에서 임베딩 (embedding) 을 추출합니다. 이 모델들은 AffectNet 데이터셋으로 사전 학습되었습니다.
하이브리드 예측 전략:
1. 사전 학습 모델의 신뢰도 기반 필터링: 사전 학습된 모델의 예측 확률 (confidence) 이 임계값 ( $p_0 \approx 0.8-0.9$ ) 을 초과하면, 해당 예측을 직접 사용합니다. 이는 고신뢰도 예측을 활용하여 MLP 의 오분을 줄입니다.
2. MLP 분류기: 신뢰도가 낮은 경우, 추출된 임베딩을 AffWild2 데이터셋으로 학습된 간단한 다층 퍼셉트론 (MLP) 에 입력합니다.
불균형 보정 (GLA): 클래스 불균형을 해결하기 위해 일반화된 로그 조정 (Generalized Logit Adjustment, GLA) 기법을 사용하여 MLP 의 마지막 레이어 편향 (bias) 을 보정합니다.
시간적 평활화 (Smoothing): 프레임 단위의 예측 노이즈를 줄이기 위해 고정 크기의 슬라이딩 윈도우 내에서 예측 확률을 평균화합니다.
멀티모달 융합 (Late Fusion): 오디오 특징 (wav2vec 2.0) 을 추출하여 얼굴 특징과 가중치 합 (blending) 을 통해 융합합니다.
VA 및 AU 특화:
- VA: MT-DDAMFN 모델을 기반으로 MSE 와 CCC (Concordance Correlation Coefficient) 를 결합한 손실 함수로 학습합니다.
- AU: 12 개 AU 에 대해 가중치 BCE 손실 함수를 사용하며, 각 AU 에 최적화된 임계값 (threshold) 을 탐색합니다.

B. 정밀 폭력 분류 (Fine-Grained Violence Detection)

전체 프레임 분석: 얼굴이 아닌 전체 비디오 프레임을 분석하여 몸짓, 상호작용, 장면 맥락을 포착합니다.
백본 (Backbone): ImageNet-1K 로 사전 학습된 ConvNeXt-T를 사용하여 프레임별 768 차원 특징을 추출합니다.
시계열 모델링: 추출된 특징을 5 레이어 Dilated TCN (Temporal Convolutional Network) 또는 BiLSTM을 통해 처리하여 시간적 동역학을 포착합니다.
멀티모달 확장: MediaPipe Pose 를 통해 추출된 스켈레톤 (골격) 특징을 Cross-Attention 을 통해 RGB 특징과 융합하여 성능을 향상시켰습니다.

3. 주요 기여 (Key Contributions)

효율성과 정확도의 균형: 복잡한 Transformer 나 3D CNN 대신, 사전 학습된 2D CNN 임베딩과 간단한 MLP/TCN 을 결합하여 계산 비용을 줄이면서도 높은 정확도를 달성했습니다.
신뢰도 기반 하이브리드 시스템: 사전 학습 모델의 고신뢰도 예측과 학습된 분류기의 예측을 동적으로 결합하여 노이즈와 불확실성을 효과적으로 처리했습니다.
불균형 및 노이즈 대응: GLA 를 통한 로그 조정과 슬라이딩 윈도우 평활화를 통해 클래스 불균형과 프레임 단위 라벨 노이즈를 완화했습니다.
PyTorch 전환: 이전 ABAW 참가 (TensorFlow 사용) 와 달리 PyTorch 프레임워크를 사용하여 재현성을 높이고 연구자/실무자의 접근성을 개선했습니다.

4. 실험 결과 (Results)

AffWild2 및 DVD 데이터셋의 검증 세트에서 다음과 같은 성과를 거두었습니다.

EXPR (표정 인식):
- 기존 베이스라인 (VGGFACE 등) 대비 F1 점수가 크게 향상되었습니다.
- 제안된 방법 (EmotiEffNet + GLA + 필터링 + 평활화) 은 F1 47.40, **정확도 57.98%**를 기록하여 상위권 성적을 보였습니다.
VA (가치 - 각성 추정):
- 평균 CCC 점수 ( $P_{VA}$ ) 가 0.562로, 기존 베이스라인 (ResNet-50, 0.22) 보다 월등히 높았으며, 복잡한 퓨전 모델들과도 경쟁 가능한 수준입니다.
AU (행동 단위 감지):
- F1 점수 **54.7%**를 달성하여, 단순 베이스라인 (39.0%) 을 크게 상회하고 상위 모델들과 격차를 줄였습니다.
VD (폭력 분류):
- DVD 데이터셋에서 Macro F1 0.783 (ConvNeXt-T + TCN) 을 기록했습니다.
- 이는 ABAW-9 베이스라인 (0.640) 보다 0.14 이상 향상된 결과로, 3D 비디오 백본 (SlowFast, VideoMAE 등) 보다 2D 백본 + 경량 시계열 모델이 더 효과적임을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 실제 배포 가능한 시스템과 연구 수준의 모델 사이의 간극을 좁히는 실용적인 접근법을 제시했습니다.

실용성: 고비용의 대규모 3D 모델 대신, 효율적인 2D 임베딩과 간단한 후처리 기법으로 뛰어난 성능을 내어 실제 야외 환경 (occlusion, 조명 변화 등) 에서의 적용 가능성을 높였습니다.
재현성: PyTorch 기반의 코드와 명확한 파이프라인을 공개하여 향후 연구의 기반을 마련했습니다.
향후 방향: 자기지도 학습 (Self-supervised learning) 기반의 사전 학습 강화, 도메인 적응적 보정, 그리고 더 풍부한 시계열 모델을 통한 장기적 일관성 향상을 향후 과제로 제시했습니다.

요약하자면, HSEmotion 팀은 복잡한 모델 아키텍처보다는 잘 훈련된 사전 학습 임베딩, 불균형 보정 기법, 그리고 효율적인 시간적 평활화의 조합을 통해 ABAW-10 의 여러 태스크에서 최상위권의 성능을 달성했습니다.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

1. 얼굴 표정, 감정, 행동 분석 (표정 인식, 감정 수치, 얼굴 근육 움직임)

2. 미세한 폭력 행동 탐지 (Fine-Grained Violence Detection)

3. 이 연구의 핵심 가치 (왜 중요한가?)

결론

1. 문제 정의 (Problem)

2. 제안된 방법론 (Methodology)

A. 얼굴 분석 태스크 (EXPR, VA, AU)

B. 정밀 폭력 분류 (Fine-Grained Violence Detection)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks