WildActor: Unconstrained Identity-Preserving Video Generation

이 논문은 대규모 데이터셋 'Actor-18M'과 비대칭 정체성 보존 어텐션 및 시점 적응 몬테카를로 샘플링 전략을 활용한 'WildActor' 프레임워크를 제안하여, 기존 방법들의 한계를 극복하고 다양한 각도와 동작에서도 일관된 신원 정보를 유지하는 고품질 인간 비디오 생성을 실현합니다.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 와일드액터 (WILDACTOR): "배우가 변하지 않는 마법의 영화 제작기"

이 논문은 **"한 번 찍은 배우의 얼굴과 옷차림을 절대 변하지 않게 유지하면서, 어떤 각도에서도 자유롭게 움직이는 영상을 만드는 기술"**을 소개합니다. 기존 기술들은 배우가 움직이거나 카메라가 돌아가면 얼굴이 뭉개지거나 옷이 달라붙는 등 '정체성'을 잃어버리는 문제가 있었는데요, 이 기술이 그 문제를 해결했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 이 기술이 필요한가요? (기존 기술의 문제점)

기존의 AI 영상 제작 기술은 두 가지 큰 실수를 저지릅니다.

  • 문제 1: "헤어리만 떠다니는 괴물" (Face-Centric)
    • AI 가 배우의 얼굴만 너무 잘 기억해서, 몸은 엉뚱하게 만들어버립니다. 마치 얼굴만 떠다니는 유령처럼, 몸통이 제멋대로 변하거나 사라지는 현상이 발생합니다.
  • 문제 2: "고정된 인형" (Copy-Paste)
    • 반대로, 배우의 원래 자세를 너무 강하게 고정시켜버립니다. 마치 인형처럼 원래 사진의 자세를 그대로 복사해서 붙여놓은 듯, 움직임을 요청해도 제자리에서 꼼짝하지 않거나, 카메라가 돌아갈 때 배우도 함께 빙글빙글 돌지 못하고 뻣뻣하게 유지됩니다.

2. 해결책 1: "1,800 만 장의 배우 사진첩" (Actor-18M 데이터셋)

이 문제를 해결하기 위해 연구진은 먼저 **엄청나게 방대한 배우 사진첩 (Actor-18M)**을 만들었습니다.

  • 비유: 기존에는 배우를 찍은 사진이 '앞에서 찍은 사진'만 100 장 있었지만, '옆에서 찍은 사진'이나 '뒤에서 찍은 사진'은 거의 없었습니다. 그래서 AI 는 옆으로 돌아갈 때 "아, 이 사람이 옆모습이 어떻게 생겼지?"라고 몰라버렸죠.
  • 해결: 연구진은 160 만 개의 영상과 1,800 만 장의 사진을 모았습니다. 중요한 건, 같은 배우를 앞, 옆, 뒤, 위, 아래 등 모든 각도에서 찍고, 다양한 배경과 조명, 표정에서도 찍었다는 점입니다.
  • 효과: 이제 AI 는 "아, 이 배우가 옆으로 돌아서면 옷 주름이 이렇게 생기고, 뒷모습은 이렇게 생기는구나"라고 완벽하게 이해하게 되었습니다.

3. 해결책 2: "마법의 초점 조절기" (WILDACTOR 기술)

이제 이 방대한 데이터를 어떻게 활용해서 영상을 만들까요? 두 가지 핵심 기술을 사용합니다.

A. 비대칭 주의 집중 (Asymmetric Identity-Preserving Attention)

  • 비유: 영화 촬영 현장에서 **감독 (영상 생성 부분)**과 **분장사 (배우 정체성 부분)**가 따로 일하는 상황입니다.
    • 기존 기술은 감독이 분장사의 일을 다 하려다 보니, 배우의 얼굴을 잊어버리거나 몸이 굳어버렸습니다.
    • WILDACTOR는 **분장사 (참조 이미지)**가 배우의 정체성 (얼굴, 옷, 몸매) 을 완벽하게 기억하게 하고, **감독 (영상 생성)**은 그 정보를 받아서 "배우가 이제 뛰어다니고, 뒤로 돌아서고, 카메라가 줌인해!"라고 지시만 받습니다.
    • 결과: 배우의 정체성은 절대 변하지 않으면서, 감독의 지시대로 자유롭게 움직입니다.

B. 시점 적응형 샘플링 (Viewpoint-Adaptive Monte Carlo Sampling)

  • 비유: 배우를 가르칠 때, 앞모습만 계속 보여주고 옆모습은 한 번도 안 보여주는 방식은 비효율적입니다.
  • 해결: AI 가 학습할 때, 이미 많이 본 '앞모습'은 덜 보고, 잘 안 본 '옆모습'이나 '뒷모습'을 더 많이 골라보게 합니다. 마치 공부할 때 약한 부분 (약점) 을 집중적으로 훈련시키는 것과 같습니다.
  • 효과: 어떤 각도에서 찍어도 배우가 일관되게 보입니다.

4. 실제 결과: 어떤 변화가 있었나요?

이 기술을 적용하면 다음과 같은 놀라운 일이 일어납니다.

  • 장면 전환: "여자가 정면을 보고 있다가, 뒤로 돌아서서 손에 든 물건을 보여줘"라고 명령하면, 얼굴과 옷이 변하지 않은 채 자연스럽게 뒤로 돌아갑니다.
  • 카메라 움직임: 카메라가 배우를 따라가며 (트래킹 샷) 돌거나, 줌인/줌아웃을 해도 배우의 특징이 흐트러지지 않습니다.
  • 다양한 환경: 비가 오는 거리, 밝은 스튜디오, 어두운 숲 등 배경이 바뀌어도 배우는 똑같은 사람으로 유지됩니다.

5. 한 줄 요약

"WILDACTOR 는 배우의 얼굴과 옷을 '불변의 법칙'처럼 지키면서, 카메라와 배경이 어떻게 변하든 자유롭게 연기할 수 있게 해주는, 마치 실제 배우를 찍는 것처럼 자연스러운 AI 영화 제작 기술입니다."

이 기술은 앞으로 영화, 광고, 게임 등 다양한 분야에서 비싼 촬영 비용 없이도 일관된 캐릭터를 가진 고품질 영상을 만드는 데 큰 역할을 할 것으로 기대됩니다.