HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

이 논문은 ABAW-10 대회에서 프레임 단위 감정 인식, 가치 - 각성 추정, 행동 단위 감지 및 미세한 폭력 분류를 위해 사전 훈련된 EfficientNet 기반 임베딩 추출과 MLP, 슬라이딩 윈도우 평활화 기법을 결합한 새로운 접근법을 제안하고, 이를 통해 기존 베이스라인 대비 검증 지표가 크게 향상되었음을 보여줍니다.

Andrey V. Savchenko, Kseniia Tsypliakova

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'ABAW-10'**이라는 거대한 컴퓨터 비전 대회에 참가한 HSEmotion 팀의 성과를 소개합니다. 쉽게 말해, "컴퓨터가 사람의 얼굴 표정, 감정, 그리고 폭력적인 행동을 얼마나 잘 알아차릴 수 있을까?"를 연구한 이야기입니다.

이 팀이 개발한 기술은 마치 **"똑똑하지만 성가신 일을 싫어하는 비서"**와 같습니다. 복잡한 일을 직접 다 하려고 노력하기보다, 이미 잘 훈련된 전문가의 도움을 받아 효율적으로 문제를 해결하는 방식입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.


1. 얼굴 표정, 감정, 행동 분석 (표정 인식, 감정 수치, 얼굴 근육 움직임)

비유: "유능한 감식관과 보조원의 팀워크"

이 팀은 사람의 얼굴을 보고 감정을 읽는 세 가지 작업을 했습니다.

  1. 표정 인식 (기쁨, 슬픔 등): "지금 이 사람은 웃고 있나?"
  2. 감정 수치 (Valence-Arousal): "얼마나 기분이 좋은가? 얼마나 흥분해 있는가?"
  3. 얼굴 근육 움직임 (Action Unit): "눈썹이 올라갔나? 입꼬리가 찢어졌나?"

이들이 쓴 방법:

  • 전문가 (Pre-trained Model) 활용: 먼저, 수만 장의 사진으로 이미 감정을 잘 아는 '전문가 (EfficientNet 모델)'를 고용했습니다. 이 전문가는 얼굴을 보면 "아, 이건 행복해!"라고 매우 확신 있게 말합니다.
  • 보조원 (MLP) 의 역할: 하지만 전문가는 가끔 헷갈리거나, 대회에서 요구하는 특정 감정 범주에 없는 경우 (예: '멸시' 같은 표정) 가 있습니다. 이때 전문가는 "내 확신이 90% 이상이야"라고 말하면 그 말을 그대로 믿습니다. 하지만 확신이 낮으면, **보조원 (MLP)**에게 넘깁니다. 보조원은 대회용 데이터 (AffWild2) 로만 훈련받아, 전문가가 헷갈릴 때를 보완해 줍니다.
  • 노이즈 제거 (Smoothing): 사람이 감정을 표현할 때 한 프레임 (순간) 에 갑자기 표정이 바뀌는 것은 자연스럽지 않습니다. 마치 영화에서 한 장면을 볼 때, "아, 저 사람이 갑자기 화난 게 아니라 조금 전부터 화가 나고 있었구나"라고 이해하는 것처럼, 시간을 두고 평균을 내어 (Sliding Window) 예측을 부드럽게 다듬었습니다.
  • 소리도 듣기: 얼굴만 보는 게 아니라, 목소리 (wav2vec) 도 함께 들어 감정을 더 정확히 파악했습니다.

결과: 복잡한 신경망을 다 쓸 필요 없이, 전문가와 보조원의 팀워크로 기존 방법들보다 훨씬 정확하고 빠르게 감정을 읽었습니다.


2. 미세한 폭력 행동 탐지 (Fine-Grained Violence Detection)

비유: "치안 카메라의 눈"

이 작업은 단순히 "누군가 화났나?"가 아니라, **"지금 폭력이 일어나고 있는가?"**를 전체 화면을 보고 판단하는 것입니다.

이들이 쓴 방법:

  • 강력한 눈 (ConvNeXt-T): 폭력을 감지하려면 얼굴뿐만 아니라 몸짓, 배경, 사람 간의 상호작용까지 봐야 합니다. 이를 위해 ImageNet(수백만 장의 일반 사진) 으로 미리 훈련된 **'ConvNeXt-T'**라는 강력한 시력 (모델) 을 사용했습니다.
  • 시간 흐름 파악 (TCN): 폭력은 순간이 아니라 흐름입니다. "주먹을 뻗고 -> 맞고 -> 넘어지는" 과정을 이어지는 시간의 흐름으로 이해해야 합니다. 이를 위해 **TCN(시간적 합성곱 네트워크)**이라는 도구를 써서 프레임들을 연결했습니다.
  • 뼈대 (Skeleton) 정보 추가: 때로는 사람의 몸이 어떻게 움직이는지 (뼈대 정보) 를 분석하면 폭력을 더 잘 알아챌 수 있습니다. 이를 영상과 합쳐서 분석하기도 했습니다.

결과: 기존에 쓰이던 3D 비디오 분석 모델들보다, "강력한 2D 시력 + 간단한 시간 흐름 분석" 조합이 훨씬 더 정확하고 빠르게 폭력을 찾아냈습니다.


3. 이 연구의 핵심 가치 (왜 중요한가?)

이 팀의 접근법은 **"복잡함보다 실용성"**을 택했습니다.

  • 기존 방식: 거대한 뇌 (초대형 AI) 를 만들어 모든 것을 한 번에 학습시키려 했음. → 무겁고, 계산 비용이 많이 들고, 구현하기 어려움.
  • 이 팀의 방식: 이미 잘 훈련된 전문가를 활용하고, 간단한 규칙 (보조원, 시간 평균) 을 더해 가볍고 빠르며 정확한 시스템을 만듦.

마치:
거대한 슈퍼컴퓨터를 동원해 날씨가 바뀔 때마다 복잡한 계산을 하는 대신, 날씨를 잘 아는 노인이 (전문가) "오늘 비 올 것 같아"라고 말하면, 그 말을 믿고 우산을 챙기는 (보조원) 것과 같습니다. 비가 안 올 때도 있지만, 대부분의 상황에서 빠르고 정확하게 대처할 수 있습니다.

결론

이 논문은 **"무조건 큰 모델을 만드는 게 답이 아니다"**라는 것을 보여줍니다. 잘 훈련된 기존 모델을 활용하고, 데이터의 불균형 (예: 화난 표정은 많지만 슬픈 표정은 적은 경우) 을 보정하며, 시간의 흐름을 자연스럽게 다듬는 현실적이고 효율적인 방법이 실제 세상 (Wild) 에서 더 잘 작동한다는 것을 증명했습니다.

이 기술은 운전 중 피로도 감지, 정신 건강 모니터링, 혹은 유해 콘텐츠 필터링 등 우리 일상에 직접 적용될 수 있는 AI 의 미래를 엿보게 해 줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →