Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 사람과 대화할 때, 사람의 표정을 얼마나 자연스럽게 따라 할 수 있을까?"**라는 질문에 대한 답을 제시합니다.

기존의 AI 는 사람의 말을 듣고 입 모양만 맞춰서 말하거나, 기계적인 표정을 짓는 경우가 많았습니다. 하지만 이 논문은 **"사람이 어떤 감정을 느낄 때, AI 도 그 감정에 맞춰서 '진짜 사람처럼' 공감하는 표정을 짓게 하는 방법"**을 개발했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🎭 1. 문제: "무뚝뚝한 AI"와 "부적절한 웃음"

상상해 보세요. 친구가 아주 슬픈 이야기를 하고 있는데, AI 친구는 그걸 듣고 하하하, 웃고 있다면 어떨까요?

기존 AI (Listener A): 친구가 "배가 아파 죽겠어"라고 하는데, AI 는 "와, 너무 재밌네!"라고 웃으며 반응합니다. (표정이 상황과 안 맞음)
이유: 기존 AI 는 단순히 "말을 듣고 표정을 만드는" 기계처럼 작동해서, **무엇이 옳은 반응인지 (사회적 예절)**를 배우지 못했습니다.

🎯 2. 해결책: "인간 선생님"의 피드백을 받다

이 연구팀은 AI 가 사람과 대화할 때 사람의 감정을 읽는 법을 가르치기 위해 두 가지 단계를 거쳤습니다.

1 단계: 모방 학습 (SFT) - "연습용 교재"

먼저 AI 에게 수많은 실제 대화 영상을 보여주고, "사람들은 이렇게 반응했어"라고 가르쳤습니다.

비유: 연극 배우가 선배들의 연극을 보고 대본을 외우고 동작을 따라 하는 단계입니다. 이때는 AI 가 표정을 짓는 법을 배우지만, "이게 정말 좋은 반응일까?"는 아직 모릅니다.

2 단계: 인간 피드백 강화 학습 (RL) - "현장 실습과 코칭"

이제 AI 가 직접 연기를 해보면, 실제 인간 심사위원들이 점수를 매깁니다.

상황: AI 가 여러 가지 표정 (웃음, 슬픔, 놀람 등) 을 만들어냅니다.
심사: 인간 심사위원들은 "이 표정은 너무 웃겨서 부적절해 (감점)", "이 표정은 친구의 슬픔을 잘 이해했네 (가점)"라고 평가합니다.
학습: AI 는 "아, 사람들은 이런 표정을 좋아하구나"라고 깨닫고, 인간이 원하는 방향으로 표정을 수정합니다.

🛠️ 3. 핵심 기술: "얼굴의 정체성을 잊고, 감정만 배우기"

이 연구의 가장 clever 한 점은 AI 가 자신의 얼굴 모양 (얼굴 생김새) 에 집착하지 않게 만든 것입니다.

비유: 만약 AI 가 "나는 이 얼굴이니까 이 표정이 내 스타일이다"라고 생각하면, 표정의 질보다는 얼굴이 예쁜지에 신경을 쓰게 됩니다.
해결: 연구팀은 AI 에게 **"너의 얼굴 생김새는 상관없어. 오직 '감정'이라는 액션만 해"**라고 가르쳤습니다.
- 마치 마리오네트 인형을 생각하세요. 인형의 얼굴은 고정되어 있지만, 실을 당겨서 표정을 바꾸는 것처럼, AI 는 감정이라는 실만 조여가며 인간이 원하는 반응을 만들어냅니다. 이렇게 하면 AI 는 얼굴 생김새 때문에 편견을 갖지 않고, 순수하게 **"어떤 표정이 인간에게 더 자연스러운가?"**를 배울 수 있습니다.

🏆 4. 결과: "진짜 사람 같은 대화"

실험 결과, 이 방법을 쓴 AI 는 다음과 같은 변화를 보였습니다.

기존 AI: 친구가 "이거 진짜 싫어"라고 하면, AI 는 "좋아!"라고 웃으며 반응함. (부적절함)
새로운 AI: 친구가 "이거 진짜 싫어"라고 하면, AI 는 역겨운 표정을 지으며 공감함. (적절함)

사람들이 직접 보고 평가한 결과, 이 AI 는 **공감 능력 (Empathy)**과 **자연스러움 (Naturalness)**에서 기존 기술보다 훨씬 높은 점수를 받았습니다.

💡 요약

이 논문은 **"AI 가 사람과 대화할 때, 단순히 말을 따라 하는 게 아니라, 사람의 감정을 읽고 사회적 예절에 맞는 표정을 짓도록 가르치는 방법"**을 소개합니다.

마치 초보 연기가 아닌, 인간 코치의 피드백을 받아 감정을 배운 베테랑 배우처럼, 이제 AI 는 사람과 대화할 때 더 따뜻하고 자연스러운 반응을 보여줄 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

이 논문은 이인 대화 (Dyadic Interaction) 환경에서 화자 (Speaker) 의 다중 모달 신호 (음성, 언어, 시각적 역동성) 에 반응하여 청자 (Listener) 의 얼굴 표정을 생성하는 문제를 다룹니다. 기존 연구들은 딥 생성 모델 (확산 모델, GAN 등) 을 사용하여 화자의 신호에 기반한 표정을 생성하는 데 성과를 거두었으나, 다음과 같은 한계가 있었습니다:

인간 선호도 부재: 생성된 표정이 사회적 규범이나 인간의 감정적 기대와 일치하지 않을 수 있음 (예: 화자가 혐오감을 표현할 때 청자가 기뻐하는 표정을 짓는 등).
정체성 편향 (Identity Bias): 생성된 표정의 품질 평가가 얼굴의 시각적 사실성이나 특정 인물의 외모와 혼동되어, 진정한 표정 품질에 대한 편향 없는 인간 피드백을 얻기 어려움.
개방형 루프 (Open-loop) 한계: 대부분의 생성 방법이 적응형 피드백 없이 일회성으로 출력을 생성하여, 대화의 흐름에 따라 동적으로 표정을 조정하지 못함.

2. 제안 방법론 (Methodology)

저자들은 인간 피드백을 활용하여 표정 생성을 정체성 독립적 (Identity-independent) 행동 학습 과정으로 재정의하고, 폐쇄 루프 (Closed-loop) 피드백 시스템을 구축했습니다. 전체 프레임워크는 두 단계로 구성됩니다 (그림 2 참조).

A. 비전 - 언어 - 행동 (VLA) 모델 및 감독 미세 조정 (SFT)

입력: 화자의 이미지 시퀀스 (DINO, SigLIP 로 특징 추출) 와 텍스트 (LLaMA 토크나이저).
모델: 7B 파라미터 LLaMA 2 를 백본으로 사용하는 VLA 모델.
행동 토큰화: 연속적인 얼굴 파라미터 (표정 계수, 머리 자세) 를 256 개의 이진 구간 (bins) 으로 양자화하여 LLM 의 이산적 출력 공간에 매핑.
학습: 화자의 다중 모달 입력을 3D Morphable Model (FLAME) 의 저차원 행동 토큰으로 매핑하도록 감독 미세 조정 (Supervised Fine-Tuning, SFT) 수행. 이를 통해 기본적이고 시각적으로 일관된 표정 생성 능력을 확보합니다.

B. 인간 피드백 강화 학습 (Human-Feedback Reinforcement Learning)

후보 생성: SFT 로 학습된 정책 (Policy) 을 사용하여 각 입력에 대해 $N$ 개의 청자 행동 후보를 샘플링합니다.
피드백 수집: 생성된 시퀀스를 렌더링하여 인간 어노테이터에게 평가하게 합니다. 평가 기준은 공감 (Empathy), 적절성 (Appropriateness), 몰입도 (Engagement), 자연스러움 (Naturalness) 입니다.
선호도 정렬 (Preference Alignment):
- 가장 높은 점수를 받은 시퀀스를 선호 (Preferred, $A^w$ ) 샘플로, 가장 낮은 점수를 받은 시퀀스를 비선호 (Dispreferred, $A^l$ ) 샘플로 지정합니다.
- 직접 선호 최적화 (Direct Preference Optimization, DPO) 알고리즘을 사용하여 정책을 최적화합니다. 이는 인간이 선호하는 행동과 비선호하는 행동을 구분하여 사회적 규범과 감정적 일관성을 극대화하도록 조정합니다.

3. 주요 기여 (Key Contributions)

최초의 폐쇄 루프 인간 피드백 적용: 자연스러운 이인 대화를 위해 인간 피드백을 폐쇄 루프 방식으로 명시적으로 사용하여 표정 생성을 인간 선호도와 정렬한 최초의 연구입니다.
정체성 독립적 행동 학습 프레임워크: 표정 생성을 '행동 학습' 문제로 재정의하고, 3D 모델 파라미터 공간에서 인간 피드백을 수집함으로써 시각적 외모나 정체성 편향 없이 순수한 표정 품질에 기반한 학습을 가능하게 했습니다.
동적 적응형 생성: 화자의 변화하는 다중 모달 신호에 실시간으로 반응하여 동적으로 조정되는 청자 표정을 생성하는 폐쇄 루프 시스템을 구축했습니다.

4. 실험 결과 (Results)

데이터셋: L2L-trevor 및 RealTalk 두 가지 벤치마크에서 평가되었습니다.

정량적 평가:
- 감정 일치도 (L2 Affect): 제안된 방법 (SFT+RL) 은 기존 최첨단 방법 (MMLHG 등) 보다 감정 일치도 지표에서 압도적으로 우수한 성능을 보였습니다 (RealTalk 에서 4.3531 vs MMLHG 6.0427).
- 운동 품질: SFT 단계만으로도 기존 방법보다 낮은 Fréchet Distance (FD) 를 기록하여 운동의 충실도를 입증했습니다. RL 단계를 추가하면 기하학적 재구성 오차는 약간 증가할 수 있으나, 사회적 적절성과 감정적 일관성 측면에서 큰 향상을 보였습니다.
정성적 평가:
- 화자가 혐오감을 표현할 때, 기존 모델들은 무표정하거나 부적절한 기쁨을 보인 반면, 제안된 모델은 혐오에 맞는 적절한 표정을 생성했습니다.
- 심각한 주제 (예: " sober 하지 않음") 에 대해 화자가 이야기할 때, 기존 모델은 부적절한 미소를 짓는 '할루시네이션'을 보인 반면, 제안된 모델은 진지하고 주의 깊은 표정을 생성했습니다.
사용자 연구 (User Study): 25 명의 참가자를 대상으로 한 연구에서 적절성 (4.5/5), 공감 (4.1/5), 몰입도 (4.2/5), 자연스러움 (4.5/5) 모든 항목에서 기존 최상위 베이스라인 (MMLHG) 을 크게 능가하는 점수를 기록했습니다.

5. 의의 및 결론 (Significance)

이 논문은 인간 - 컴퓨터 상호작용 (HCI) 분야에서 사회적 지능 (Social Intelligence) 을 갖춘 가상 에이전트 개발에 중요한 이정표가 됩니다. 단순히 얼굴 움직임을 모방하는 것을 넘어, 인간의 사회적 규범과 감정적 기대에 부합하는 표정을 생성할 수 있음을 입증했습니다.

특히, 인간 피드백을 강화 학습에 통합하고 정체성 편향을 제거한 접근법은 향후 대화형 AI, 메타버스 아바타, 그리고 심리 치료 보조 도구 등 다양한 분야에서 더욱 자연스럽고 신뢰할 수 있는 상호작용을 구현하는 데 핵심적인 기술적 기반을 제공합니다.