원저자: Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

게시일 2026-06-02✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Rejoy Chakraborty, Archisman Adhikary, Chayan Halder, Payel Rakshit, Sanchita Ghosh, Kaushik Roy

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

친구의 표정만을 보고 그가 어떻게 느끼고 있는지 이해하려고 노력한다고 상상해 보세요. 때로는 미소가 행복을 의미하지만, 때로는 예의를 차리거나 슬픔을 숨기기 위한 것일 수도 있습니다. 이제 컴퓨터가 단 하나의 스냅샷(정지 화면)만을 얻게 되었을 때, 이 과정을 컴퓨터로 수행하는 것을 상상해 보세요. 이는 마치 영화의 단 한 프레임만 보고 줄거리를 추측하려는 것과 같으며, 틀리기 매우 쉽습니다.

이 논문은 이 문제를 해결하기 위해 설계된 MSFERNet(Multi-Scale Facial Emotion Recognition Network)이라는 새로운 시스템을 소개합니다. 이것을 마치 심리학자가 상담 중인 환자를 관찰하듯, 얼굴이 시간이 흐름에 따라 어떻게 변하는지를 지켜보는 "스마트 카메라"라고 생각하면 됩니다.

다음은 쉬운 비유를 사용한 작동 방식의 상세 설명입니다.

1. 문제점: 감정은 사진이 아니라 영화입니다

저자들은 감정이 정지된 상태가 아니라 흐르고 변화하는 것이라고 지적합니다. 사람은 중립적인 상태에서 시작해 약간 짜증이 났다가 다시 차분해질 수 있습니다. 대부분의 기존 컴퓨터 시스템은 단 한 장의 사진을 찍고 기분을 추측하는 사진가와 같습니다. 이 논문은 누군가를 진정으로 이해하려면 그들의 얼굴이라는 "영화"를 지켜봐야 한다고 주장합니다.

2. 해결책: 다중 렌즈 카메라 (MSFERNet)

그들이 만든 시스템의 핵심은 새로운 유형의 AI 아키텍처입니다. 탐정이 사건을 해결하려고 노력하는 모습을 상상해 보세요.

"광각" 렌즈: 시스템의 일부는 큰 그림(얼굴의 전체적인 형태)을 봅니다.
"줌" 렌즈: 다른 부분은 아주 세밀한 디테일(입술의 떨림이나 눈썹의 주름)을 확대해서 봅니다.
"기억" (잔차 학습, Residual Learning): 이른 시간의 단서들을 기억하는 탐정처럼, 이 시스템은 이전에 보았던 것을 기억하는 "잔차 블록(residual blocks)"을 사용하여 더 깊이 파고드는 동안에도 이야기의 흐ap을 놓치지 않습니다.
"스포트라이트" (주의 집중 메커니즘, Attention Mechanism): 이 시스템에는 배경(지저 혹은 창문 같은 것)을 무시하고 얼굴에만 엄격히 집중하여 가장 중요한 부분을 강조하는 내장된 스포트라이트(CBAM)가 있습니다.

3. 두뇌 훈련하기: 그룹을 통한 학습

이 시스템을 가르치기 위해 연구진은 단순히 사진을 보여주며 "이것은 행복이다"라고 말하지 않았습니다. 그들은 **지도 대조 학습(Supervised Contrastive Learning)**이라는 기술을 사용했습니다.

비유: 선생님이 학생에게 빨간 사과 더미와 초록 사과 더미를 보여주는 상황을 상상해 보세요. 선생님은 단순히 "빨간색은 빨간색이다"라고 말하는 대신, "이 빨간 사과들이 서로 얼마나 유사한지, 그리고 초록 사과들과는 어떻게 다른지 살펴보렴"이라고 말합니다.
유사한 감정들을 함께 묶고 서로 다른 감정들을 멀리 떨어뜨림으로써, 컴퓨터는 각 감정이 실제로 어떤 모습인지 훨씬 더 명확한 그림을 학습하게 됩니다.

4. 언어 단순화하기: 3색 시스템

연구진은 현실 세계가 복잡하다는 점을 깨달았습니다. 표준 데이터셋에는 7~8가지의 다양한 감정(화남, 혐오, 공포, 슬픔, 행복, 놀람, 중립 등)이 있습니다.

비유: 그들은 실시간 적용을 위해 이를 "신호등" 시스템으로 단순화하기로 했습니다.
- 초록: 긍정 (행복)
- 노랑: 중립
- 빨강: 부정 (화남, 혐오, 공포, 슬픔)
그들은 "놀람"을 의도적으로 제외했는데, 이는 영화의 반전처럼 맥락에 따라 무엇이든 의미할 수 있어 빠른 분석에는 너무 혼란스러울 수 있기 때문입니다.

5. 실시간 도구 (RT-FER)

그들은 RT-FER라는 사용자 친화적인 애플리케이션을 만들었습니다.

작동 방식: 영상을 업로드하거나 웹캠을 사용할 수 있습니다. 시스템은 모든 프레임에서 당신의 얼굴을 포착하여 "다중 렌즈 카메라"를 통과시킨 후 점수를 부여합니다.
점수: 시스템은 감정을 -1에서 1 사이의 숫자로 변환합니다.
- -1은 순수한 부정입니다.
- 0은 중립입니다.
- +1은 순수한 긍정입니다.
그래프: 영상이 재생되는 동안 시스템은 당신의 기분이 시간이 흐름에 따라 어떻게 "파도를 타듯" 오르내리는지 보여주는 선 그래프를 그립니다.

6. 결과: 빠르고, 가볍고, 정확함

팀은 표준 데이터셋(FER13 및 CK+ 등)을 통해 시스템을 테스트했습니다.

성능: 시스템은 매우 우수한 성능을 보였는데, 한 데이터셋에서는 약 96.77%의 정확도를, 단순화된 3가지 감정 버전에서는 **81.08%**를 기록했습니다.
효ل률성: 가장 좋은 점은 이 시스템이 "경량화"되어 있다는 것입니다. 이 시스템은 단 2.37백만 개의 파라미터(컴퓨터가 암기해야 할 규칙의 수라고 생각하면 됩니다)만을 가지고 있습니다. 다른 시스템들이 무겁고 느린 트럭이라면, 이 시스템은 민첩한 자전거와 같습니다. 크기가 작아서 슈퍼컴퓨터 없이도 일반 기기에서 실행될 수 있습니다.

7. 한계 (오류 분석)

저자들은 결함을 솔직하게 밝혔습니다. 만약 훈련 데이터에 "나쁜 사진들"—예를 들어 얼굴 대신 로고가 있거나 얼굴이 거대한 워터마크로 가려진 사진—이 포함되어 있다면 시스템은 혼란을 겪습니다. 이는 마치 아이에게 강아지 귀를 그려 넣은 고양이 사진을 보여주며 개를 알아보라고 가르치는 것과 같습니다.

요약

요약하자면, 이 논문은 단 하나의 스냅샷이 아니라 시간에 따른 변화를 포착하기 위해 인간 관찰자처럼 얼굴을 관찰하는 스마트하고 경량화된 AI를 제시합니다. 복잡한 감정을 명확한 "긍정/부정/중립" 점수로 단순화하여, 실시간 영상에서 감정의 변화를 추적하는 데 유용한 도구로 만듭니다.

기술 요약: 실시간 얼굴 감정 인식을 위한 지도 학습 기반 대조 학습을 적용한 다중 스케일 네트워크

문제 정의

실시간 얼굴 감정 인식(FER)은 특히 비디오 기반 시나리오에서 감정 상태가 불연속적이지 않고 지속적으로 변화하기 때문에 상당한 어려움을 수반한다. 주요 난제는 얼굴 표정의 높은 피험자 간 변동성과 감정의 모호성(예: 미소는 맥락에 따라 행복, 예의, 또는 비꼼을 나타낼 수 있음)에 있다. 또한, 기존 연구는 주로 정적 이미지 인식이나 단일 프레임 분류에 집중해 왔으며, 이는 장기간의 시간 흐름에 따른 감정 변화를 분석하는 능력의 공백을 남겼다. 이러한 한계는 심리학 및 상담 분야에서 전문가 대비 환자의 비율이 부족한 상황에서 개인의 심리 상태를 종합적으로 이해하는 데 걸림돌이 된다.

방법론

저자들은 딥러닝 아키텍처를 통한 특징 추출 및 분류와 실시간 애플리케이션 인터페이스로 구성된 2단계 시스템을 제안한다.

1. MSFERNet 아키텍처

시스템의 핵심은 MSFERNet(Multi-Scale Facial Expression Recognition Network)으로, 심층 순차적 CNN에서 흔히 발생하는 특징 저하 및 기울기 소실 문제를 해결하도록 설계되었다. 이 아키텍처는 다음을 포함한다:

백본(Backbone): 전체 네트워크를 사용하는 것보다 계산 복잡도를 줄이기 위해, 사전 학습된 EfficientNet-B0의 초기 단계들을 활용하여 저수준 및 중수준의 의미론적 특징을 추출한다.
잔차 정제(Residual Refinement): 추출된 특징 맵은 $3 \times 3$ 컨볼루션, 배치 정규화(Batch Normalization), ReLU, 그리고 항등 매핑을 보존하고 기울기 흐름을 안정화하기 위한 스킵 연결(skip connections)이 포함된 **잔차 블록(Residual Block)**을 가진 정제 블록을 통과한다.
다중 스케일 특징 추출: 네트워크는 $3 \times 3$ $3 \times 3$ 및 $5 \times 5$ $5 \times 5$ 커널을 사용하는 병렬 컨볼루션 브랜치를 채택한다.
- 1단계: 브랜치들은 요소별 덧셈(element-wise addition)을 통해 결합된다.
- 2단계: 서로 다른 수용 영역(receptive fields)으로부터 오는 상보적인 정보를 보존하기 위해 브랜치들이 채널 단위로 결합(concatenation)된다.
어텐션 메커니즘: 각 다중 스케일 단계 이후에 **CBAM(Convolutional Block Attention Module)**이 적용되어, 정보가 풍부한 얼굴 영역을 순차적으로 강조(채널 및 공간 어텐션)하고 배경 노이즈를 억제한다.
분류 헤드(Classification Head): 특징들은 다운샘플링되고 전역 풀링(globally pooled)된 후, 과적합을 방지하기 위한 드롭아웃(0.3)이 적용된 완전 연결 계층(128 및 64 유닛)을 통과한다.
지도 학습 기반 대조 학습(Supervised Contrastive Learning): 프로젝션 헤드는 특징을 정규화된 임베딩 공간으로 매핑한다. 모델은 다음과 같은 결합 손실 함수를 사용하여 학습된다:
$L = 1.0 \times L_{cross} + 0.1 \times L_{sup}$
여기서 $L_{cross}$ 는 범주형 교차 엔트로피 손실(Categorical Cross-Entropy Loss)이며, $L_{sup}$ 는 임베딩 공간에서 양의 샘플(동일 클래스)은 가깝게 끌어당기고 음의 샘플은 멀리 밀어냄으로써 감정 특징의 표현을 더 잘 학습하도록 설계된 지도 학습 기반 대조 손실이다.

2. 데이터셋 전처리 및 수정

본 연구는 FER13 및 CK+ 데이터셋을 활용한다. 심리학자들이 광범위한 정신 상태를 식별하는 것을 돕겠다는 목표에 부합하도록, 저자들은 표준 7개 클래스의 FER13 데이터셋을 3개 클래스 시스템으로 수정하였다:

Positive (긍정): 'Happy' 클래스에서 유도됨.
Negative (부정): 'Angry', 'Disgust', 'Fear', 'Sad'를 병합함.
Neutral (중립): 그대로 유지함.
참고: 'Surprise' 클래스는 높은 맥락 의존성과 혼합된 감정을 유발하는 경향 때문에 제외되었다.
전처리: 이미지는 $128 \times 128$ 크기로 조정되었으며, 이동(shifting), 줌(zooming), 전단(shearing), 뒤집기(flipping) 등의 표준 증강 기법이 적용되었다. 손상된 이미지는 필터링되었다.

3. RT-FER 시스템

실시간 모니터링을 시연하기 위해 RT-FER이라는 사용자 친화적인 애플리케이션이 개발되었다. 이 시스템은 라이브 비디오를 캡처하거나 업로드된 비디오를 처리하며, 프레임에서 얼굴을 추출하여 학습된 MSFERNet에 전달한다. 시스템은 다음을 출력한다:

감정 예측: 신뢰도 점수가 포함된 예측 클래스.
감정 점수(Emotion Scoring): $Score = p_{positive} - p_{negative}$ (Negative를 -1, Neutral을 0, Positive를 1로 매핑)로 계산되는 연속적인 점수.
시각화: 비디오 피드와 함께 시간에 따른 감정 점수를 추적하는 실시간 그래프를 보여주는 그래픽 인터페이스를 제공한다.

주요 기여

MSFERNet 아키텍처: 전이 학습, 잔차 메커니즘 및 지도 학습 기반 대조 학습을 통합한 다중 스케일, 어텐션 기반 네트워크를 제안하였다.
데이터셋 적응: 광범위한 감정 카테고리에 대한 표준 데이터셋의 부재를 해결하기 위해, 심리 상태 분석에 맞춤화된 수정된 3클래스 FER13 데이터셋을 생성하였다.
RT-FER 애플리케이션: 실시간 감정 모니터링과 시간 경과에 따른 감정 변화 시각화를 가능하게 하는 기능적인 GUI를 개발하였으며, 여기에는 맥락에 의해 유도되는 감정 변화를 관찰하기 위한 비디오 플레이어가 포함된다.

실험 결과

모델은 80:10 학습-테스트 분할을 사용하여 FER13 (원래 7-클래스 및 수정된 3-클래스) 및 CK+ 데이터셋에 대해 평가되었다.

성능:
- FER13 (7-클래스): 66.73% 정확도.
- FER13 (3-클래스): 81.08% 정확도.
- CK+: 96.77% 정확도.
효율성: 모델은 2.37백만 개의 학습 가능한 파라미터만을 포함하고 있어, AlexNet (62.30M) 또는 VGGNet (84.00M)과 같은 최신 모델(SOTA)보다 현저히 자원 효율적이다.
지도 학습 기반 대조 손실의 영향: $L_{sup}$ 의 포함은 모든 데이터셋에서 정확도를 향상시켰다 (예: FER13 7-클래스는 64.19%에서 66.73%로, CK+는 95.56%에서 96.77%로 향상됨).
비교: 제안된 MSFERNet은 더 낮은 파라미터 수를 유지하면서도 FER13 및 CK+ 데이터셋 모두에서 여러 기존 SOTA 모델을 능가하였다.

의의 및 한 한계점

본 논문은 제안된 시스템이 정적 감정 인식과 지속적인 심리 상태 모니터링 사이의 간극을 메운다고 주장한다. 감정 변화를 추적할 수 있는 도구를 제공함으로써, 심리학자들이 피험자의 감정 상태에 대한 추가적인 통찰을 얻는 데 도움을 주어 수동 관찰의 부담을 완화할 수 있는 잠재력을 가진다.

저자들은 전처리에도 불구하고 훈련 데이터에 오류가 있는 샘플(예: 로고나 워터마크가 포함된 이미지)이 포함되어 훈련에 영향을 미쳤음을 언급하며 한계를 겸허히 인정하였다. 또한, 이미지 품질의 변화와 얼굴 표정의 본질적인 모호성으로 인해 실시간 인식이 여전히 도전적인 과제임을 강조하였다. 본 연구는 현재의 결과가 만족스럽지만, 더 큰 규모의 실제 데이터셋에서 훈련하고 더 강력한 어텐션 메커니즘을 통합함으로써 향후 개선이 이루어질 수 있다고 결론지었다.

A Multiscale Network with Supervised Contrastive Learning for Real-Time Facial Emotion Recognition