SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

본 논문은 불일치하는 확산 상태를 해결하는 '이웃 강제 (Neighbor Forcing)' 전략과 고정 길이 표현을 통한 무한 생성이 가능한 'ConvKV 메모리'를 도입하여, 기존 방법론의 한계를 극복하고 20 FPS 실시간 스트리밍이 가능한 고품질 시간 단위 인간 애니메이션을 실현한 SoulX-LiveAct 를 제안합니다.

Dingcheng Zhen, Xu Zheng, Ruixin Zhang, Zhiqi Jiang, Yichao Yan, Ming Tao, Shunshun Yin

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SoulX-LiveAct"**라는 새로운 기술을 소개합니다. 쉽게 말해, **"한 시간 동안 멈춤 없이, 실시간으로 사람처럼 자연스럽게 움직이는 디지털 아바타를 만드는 기술"**입니다.

기존의 기술들은 영상을 만들 때 "한 번에 다 만들어야 한다"거나 "오래된 영상을 기억하는 데 한계가 있어" 긴 영상을 만들면 얼굴이 일그러지거나 입 모양이 말과 안 맞았습니다. 이 논문은 그 문제들을 해결하기 위해 두 가지 똑똑한 비법을 개발했습니다.

이 비법을 이해하기 위해 마치 '오케스트라 지휘자'와 '메모리 노트'를 사용하는 상황으로 비유해 볼까요?


1. 문제: 왜 기존 기술은 긴 영상을 못 만들까?

기존 기술들은 영상을 만들 때 마치 매번 새로운 악보를 들고 와서 다시 연습하는 악사와 같았습니다.

  • 시간이 지날수록 기억이 안 남: 과거의 영상을 기억하려면 메모리가 계속 커져야 하는데, 컴퓨터는 그걸 감당하지 못해 결국 "과거의 기억 (메모리) 을 잘라버립니다." 그래서 영상이 길어질수록 얼굴이 변하거나 옷이 사라지는 '기억 상실증'이 생깁니다.
  • 리듬이 안 맞음: 입 모양 (음성) 과 얼굴 표정을 만들 때, 이전 프레임의 상태와 현재 상태가 서로 다른 '노이즈 (방해 신호)' 속에서 만들어져서, 입술이 말과 딱 맞지 않거나 얼굴이 떨리는 현상이 생깁니다.

2. 해결책 1: "이웃 forcing (Neighbor Forcing)" - 같은 리듬을 타는 악사들

이 기술은 영상을 만들 때 이전 프레임과 '동일한 리듬 (단계)'으로 다음 프레임을 만드는 것입니다.

  • 비유: Imagine you are dancing in a line.
    • 기존 방식: 앞사람이 춤을 추고 멈췄을 때, 뒤사람은 "아, 내가 이제 춤을 춰야지!"라고 생각하다가, 앞사람이 이미 춤을 멈춘 상태 (다른 단계) 를 보고 따라 하려다 리듬이 깨집니다.
    • SoulX-LiveAct 방식 (이웃 forcing): 앞사람이 춤을 추는 **정확히 그 순간 (동일한 단계)**에 뒤사람도 같은 동작을 준비합니다. 마치 동일한 박자 (Noise Condition) 를 공유하는 춤꾼들처럼 말이죠.
    • 효과: 이렇게 하면 컴퓨터가 "이전 영상과 현재 영상이 서로 다른 세상에서 온 게 아니라, 같은 시간대에 만들어진 것"이라고 자연스럽게 이해하게 됩니다. 그래서 입술 움직임이 말과 딱 맞고, 얼굴이 떨리지 않게 됩니다.

3. 해결책 2: "ConvKV 메모리" - 무한한 기억력을 가진 스마트 노트

영상이 길어질수록 컴퓨터 메모리가 부족해지는 문제를 해결하기 위해 개발한 기술입니다.

  • 비유:
    • 기존 방식: 영화를 보다가 중요한 장면을 기억하려면, 과거의 모든 장면을 한 장 한 장 종이에 적어두고 책상 위에 쌓아둡니다. 시간이 지나면 책상이 넘치고, 더 이상 중요한 장면을 볼 수 없어 잊어버리게 됩니다.
    • SoulX-LiveAct 방식 (ConvKV 메모리): 과거의 모든 장면을 다 적어두지 않고, 중요한 부분만 요약해서 작은 노트에 적어둡니다.
      • 최근 2 장: 아주 자세히 기억 (단기 메모리).
      • 그 이전: 핵심만 요약해서 압축해 둠 (장기 메모리).
      • 핵심: 이 요약본은 항상 같은 크기로 유지됩니다. 그래서 영상이 1 분이든 1 시간이든, 컴퓨터 책상 (메모리) 은 항상 비어있고, 과거의 얼굴 모양이나 옷차림 같은 중요한 정보는 잊지 않고 계속 기억합니다.

4. 결과: 무엇이 달라졌나요?

이 두 가지 기술을 합치면 다음과 같은 놀라운 일이 일어납니다.

  1. 실시간으로 1 시간 영상: 컴퓨터가 영상을 만들 때, 영상을 다 만들고 나서 보여주는 게 아니라, **말하는 속도와 똑같이 실시간 (20 프레임/초)**으로 만들어냅니다.
  2. 얼굴이 변하지 않음: 영상이 길어질수록 얼굴이 뚱뚱해지거나 옷이 사라지는 일이 없습니다. 반지 같은 작은 장신구도 처음부터 끝까지 똑같이 유지됩니다.
  3. 입술이 완벽하게 맞춤: "안녕하세요"라고 말할 때 입 모양이 '안'과 '녕'에 딱 맞춰집니다.
  4. 저렴한 비용: 고가의 슈퍼컴퓨터 8 대가 아니라, 최고급 그래픽 카드 2 장만 있으면 이 모든 일을 실시간으로 처리할 수 있습니다.

요약

SoulX-LiveAct"동일한 박자 (Neighbor Forcing) 로 춤추게 하고, 중요한 기억만 요약해서 노트에 저장 (ConvKV Memory) 하는" 똑똑한 시스템입니다. 덕분에 우리는 이제 한 시간 동안 멈춤 없이, 얼굴도 변하지 않고, 입술도 딱 맞는 완벽한 디지털 인간을 실시간으로 만날 수 있게 되었습니다.

이 기술은 앞으로 가상 휴먼, 실시간 통역 아바타, 혹은 끝없이 이어지는 인터랙티브 스토리텔링 등에 혁신을 가져올 것으로 기대됩니다.