Text-Driven Emotionally Continuous Talking Face Generation

이 논문은 텍스트와 다양한 감정 변화를 반영하는 설명을 입력받아 자연스러운 표정 전환이 포함된 연속적인 감정 표현을 생성하는 새로운 작업인 '감정 연속성 말하기 얼굴 생성 (EC-TFG)'과 이를 구현하는 'TIE-TFG' 모델을 제안합니다.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He

게시일 2026-03-09
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 기술 vs. 새로운 기술: "로봇 연기" vs. "실제 배우"

기존 기술 (기존 TFG):
마치 대본만 읽는 로봇 배우를 생각해보세요.

  • "화난다"는 지시만 받으면, 처음부터 끝까지 일정한 표정으로 화를 내며 말을 합니다.
  • 목소리는 변하지 않고, 얼굴 표정도 "화남"이라는 한 가지 감정만 고수합니다.
  • 문제는 실제 인간은 화를 내다가도 차츰 진정되거나, 갑자기 놀라기도 한다는 점입니다. 하지만 기존 기술은 이런 **감정의 흐름 (변화)**을 표현하지 못해 조금 어색하고 딱딱해 보입니다.

이 연구의 기술 (EC-TFG):
이제 우리는 감정이 풍부한 실제 배우를 조종할 수 있게 되었습니다.

  • 단순히 "화난다"라고 말하는 게 아니라, **"처음엔 매우 화났지만, 점점 차분해진다"**라고 구체적인 대본 (텍스트) 을 줍니다.
  • 그럼 AI 는 이 지시대로 목소리 톤과 얼굴 표정이 자연스럽게 변하는 영상을 만들어냅니다.
  • 마치 영화 배우가 대본을 읽으며 감정을 이입해 연기하듯, AI 도 말의 흐름에 따라 감정이 변하는 자연스러운 얼굴을 만들어냅니다.

2. 이 기술이 어떻게 작동할까? "감정 지도"를 그리는 과정

이 연구에서는 TIE-TFG라는 새로운 시스템을 개발했습니다. 이 시스템이 어떻게 작동하는지 요리사에 비유해 볼까요?

  1. 재료 준비 (텍스트와 감정 설명):
    • 요리사 (AI) 는 "이 요리는 처음엔 매우고, 나중엔 달콤해져야 해"라는 **레시피 (감정 설명)**와 **재료 (텍스트)**를 받습니다.
  2. 소스 만들기 (감정 변화 예측):
    • 요리사는 레시피를 분석해, "1 분에는 매운 소스, 2 분에는 달콤한 소스"처럼 **시간에 따른 소스 변화 (감정 변화 시퀀스)**를 미리 계산합니다.
    • 이 연구는 말소리 (오디오) 와 글자 (텍스트) 를 동시에 분석해서, 어떤 단어를 말할 때 어떤 감정이 들어갈지 매우 정교하게 예측합니다.
  3. 요리 완성 (영상 생성):
    • 이제 계산된 '소스 (감정 변화)'를 이용해 요리를 합니다.
    • 입 모양, 표정, 고개 움직임이 소스 (감정) 에 맞춰 자연스럽게 변하도록 디테일하게 조절합니다.
    • 결과물은 처음엔 화난 표정으로 시작하다가, 차츰 진정되는 표정으로 바뀌는 완성된 영상이 됩니다.

3. 왜 이 기술이 중요할까요?

  • 더 현실적인 가상 인간: 영화 제작, 가상 현실 (VR), 혹은 뉴스 앵커처럼 감정이 필요한 분야에서 훨씬 더 생동감 있는 캐릭터를 만들 수 있습니다.
  • 정교한 컨트롤: 단순히 "행복해"라고 하는 게 아니라, "기분 좋은데 갑자기 놀란 척해"처럼 복잡하고 미세한 감정 변화까지 지시할 수 있습니다.
  • 자연스러운 흐름: 인간은 감정이 한곳에 머물지 않고 끊임없이 변합니다. 이 기술은 그 **변화의 흐름 (Fluctuation)**까지 완벽하게 재현하여, 보는 사람이 "아, 진짜 사람 같네"라고 느끼게 합니다.

요약하자면

이 논문은 **"감정이 변하는 대본을 주면, 그 감정의 흐름에 맞춰 얼굴 표정과 목소리가 자연스럽게 변하는 AI 영상"**을 만드는 방법을 처음 제안했습니다. 마치 감정을 입체적으로 연기하는 디지털 배우를 만든 것과 같아, 앞으로 가상 인간 기술의 질을 한층 높여줄 것으로 기대됩니다.