Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 문제점: "얼굴 도용"의 함정

기존의 기술들은 사진을 움직이게 할 때, 표정을 바꾸려고 하면 원래 사람의 얼굴 모양 (눈 크기, 턱선 등) 까지 함께 바뀌는 치명적인 오류가 있었습니다.

비유: 마치 가면극을 할 때, 배우가 다른 사람의 표정을 흉내 내려고 가면 (표정) 을 쓰면, 가면의 모양이 너무 커서 배우의 원래 얼굴이 다 가려져 버리는 것과 같습니다. "이건 누구 얼굴이지?"라고 헷갈리게 만드는 것이죠.

🛠️ 2. 해결책: Export3D 의 마법 세 가지

이 연구팀은 이 문제를 해결하기 위해 세 가지 핵심 아이디어를 개발했습니다.

① "표정 전용 레이어" (Tri-plane Generator)

기존 기술은 사진의 픽셀을 직접 늘리고 구부리는 (Warpping) 방식을 썼는데, 이 방법은 표정과 얼굴 모양이 뒤섞이기 쉽습니다. 대신 Export3D 는 **3D 공간의 청사진 (Tri-plane)**을 그립니다.

비유: 집을 지을 때 벽돌 (픽셀) 을 직접 옮기는 게 아니라, 3D 도면을 먼저 그리는 것과 같습니다. 이 도면은 표정 (창문 여닫기) 과 구조 (벽 두께) 를 분리해서 관리할 수 있게 해줍니다.

② "표정만 추출하는 필터" (CLeBS - Contrastive Pre-training)

가장 중요한 부분입니다. 3D 모델에서 나오는 표정 데이터에는 원래 얼굴의 정보 (눈매, 머리 크기 등) 가 섞여 있었습니다. 연구팀은 이 섞인 정보를 걸러내는 특별한 필터를 만들었습니다.

비유: 커피에 우유가 섞여 있다면, 우유만 따로 걸러내는 필터를 통과시켜 순수한 커피 (표정) 만 남기는 것과 같습니다.
- 이 필터를 통해 "눈을 깜빡이는 동작"이라는 순수한 정보만 추출하고, "눈이 큰 사람"이라는 정보는 버립니다. 그래서 다른 사람의 표정을 가져와도 원래 사람의 큰 눈은 그대로 유지됩니다.

③ "표정 조절기" (EAdaLN)

순수해진 표정 정보를 원래 사진에 적용할 때, 단순히 덮어씌우는 게 아니라 조절기를 통해 자연스럽게 섞어줍니다.

비유: 요리할 때 소스를 넣을 때, 그냥 부어넣는 게 아니라 간을 맞추는 스프레이처럼 표정 데이터를 사진의 특징에 맞춰 부드럽게 분사하는 방식입니다.

🎬 3. 결과: 무엇이 달라졌나요?

이 기술을 사용하면 다음과 같은 일이 가능합니다.

표정 자유자재: 사진 속 사람이 웃거나, 눈을 감거나, 입을 벌리는 등 다양한 표정을 다른 사람의 표정 데이터로 쉽게 바꿀 수 있습니다.
얼굴은 그대로: 표정이 바뀌어도 "아, 이건 여전히 A 씨 얼굴이야!"라고 알 수 있을 정도로 원래 얼굴의 특징 (아이돌의 눈, 할아버지의 주름 등) 이 유지됩니다.
3D 시점 변경: 카메라를 돌리듯이 얼굴을 옆으로 돌려도 3D 구조가 깨지지 않고 자연스럽게 보입니다.

💡 요약

이 논문은 "표정은 표정대로, 얼굴은 얼굴대로" 분리해서 다루는 기술을 개발했습니다. 마치 마술사가 다른 사람의 표정 (마법의 주문) 을 가져와서 내 얼굴에 적용하되, 내 얼굴의 고유한 특징은 변하지 않게 만드는 것과 같습니다.

이 기술은 가상의 아바타, 영화 더빙, 화상 회의 등 다양한 분야에서 더 자연스럽고 실감 나는 가상 인간을 만드는 데 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 얼굴 애니메이션 (Portrait Animation) 기술은 주로 2D 이미지 왜곡 (Image Warping) 이나 3D 변형 필드 (Deformation Fields) 에 의존합니다. 이러한 방법론들은 다음과 같은 근본적인 한계를 가지고 있습니다.

외모와 표정의 얽힘 (Appearance-Expression Entanglement): 2D 기반 방법들은 모션 공간에 외모 (Appearance) 와 표정 (Expression) 이 함께 인코딩되는 경향이 있어, 다른 사람의 표정을 전달할 때 (Cross-identity transfer) 원본 얼굴의 외모가 왜곡되거나 운전자의 외모가 섞이는 '외모 교체 (Appearance Swap)' 현상이 발생합니다.
3D 일관성 부재: 2D 왜곡 기반 방법은 시점 변경 (View Synthesis) 시 3D 일관성을 유지하기 어렵고, 기존 3D NeRF 기반 방법들은 3D GAN 잠재 공간 (Latent Space) 을 역추적하는 과정에서 원본 얼굴의 정체성을 잃거나, 변형 필드 예측 시 영상 수준의 아티팩트 (깜빡임 등) 가 발생합니다.
데이터 부족: 외모와 표정을 분리하여 학습하기 위한 짝지어진 데이터 (동일한 표정을 가진 다른 얼굴들) 가 부족하여 분리 학습 (Disentanglement) 이 어렵습니다.

2. 제안 방법 (Methodology: Export3D)

저자들은 Export3D라는 단일 샷 (One-shot) 3D 인식 얼굴 애니메이션 모델을 제안합니다. 이 모델은 주어진 원본 이미지와 운전 이미지의 표정 파라미터를 통해 표정과 카메라 시점을 제어합니다.

핵심 구성 요소:

대조적 사전 학습 프레임워크 (Contrastive Pre-training Framework, CLeBS):
- 문제 해결: 3DMM(3D Morphable Model) 의 표정 파라미터 ( $\beta$ ) 는 본질적으로 외모 정보와 강하게 얽혀 있습니다. 이를 해결하기 위해 비디오 데이터셋에서 **대조 학습 (Contrastive Learning)**을 수행합니다.
- 기법: 동일한 비디오 내의 서로 다른 프레임 (동일한 외모, 다른 표정) 을 양의 샘플 (Positive) 로, 다른 비디오의 프레임을 음의 샘플 (Negative) 로 설정하여 학습합니다.
- LeBS (Learned Basis Scaling): 3DMM 파라미터를 저차원의 직교 기저 (Orthonormal Basis) $\mathbf{V}$ 로 매핑하여 외모 정보가 제거된 순수한 표정 표현 ( $\beta'$ ) 을 추출합니다. 이를 통해 표정 파라미터가 외모와 직교하는 구조를 갖도록 합니다.
하이브리드 트라이-플레인 생성기 (Hybrid Tri-plane Generator):
- 아키텍처: 비전 트랜스포머 (ViT) 와 합성곱 레이어를 결합한 생성기를 사용합니다.
- EAdaLN (Expression Adaptive Layer Normalization): 기존 변형 필드 예측 대신, 정제된 표정 파라미터 ( $\beta'$ ) 를 EAdaLN 레이어를 통해 시각 토큰 (Visual Tokens) 에 직접 주입합니다. 이는 운전자의 표정 정보를 원본 이미지의 특징에 효과적으로 변조 (Modulate) 하여 트라이-플레인 (Tri-plane) 을 생성합니다.
- 트라이-플레인 생성: 원본 이미지와 표정 파라미터로부터 3D 사전 지식 (3D Prior) 을 가진 트라이-플레인을 직접 생성합니다.
차분 가능 볼륨 렌더링 및 초해상도 (Differentiable Volume Rendering & Super-resolution):
- 생성된 트라이-플레인을 운전자의 카메라 파라미터 ( $p_D$ ) 를 사용하여 볼륨 렌더링을 통해 2D RGB 이미지로 변환합니다.
- 렌더링된 저해상도 이미지를 고해상도로 업스케일링하기 위해 초해상도 (Super-resolution) 모듈을 적용하여 최종 영상을 생성합니다.

3. 주요 기여 (Key Contributions)

Export3D 모델 제안: 원본 이미지의 외모를 유지하면서, 3DMM 파라미터와 카메라 파라미터만으로 표정과 시점을 명시적으로 제어할 수 있는 단일 샷 3D 인식 얼굴 애니메이션 방법을 제시했습니다.
외모 제거 표정 표현 학습: 3DMM 파라미터에서 외모 정보를 제거하고 순수한 표정만 추출하는 **대조적 사전 학습 프레임워크 (CLeBS)**를 제안했습니다. 이는 서로 다른 얼굴 간의 표정 전달 시 발생하는 외모 교체 (Appearance Swap) 문제를 해결합니다.
EAdaLN 기반 생성 구조: 변형 필드 예측 대신 EAdaLN 을 통해 표정 파라미터를 트라이-플레인 생성 과정에 직접 주입하여, 더 안정적이고 일관된 3D 영상을 생성합니다.

4. 실험 결과 (Results)

데이터셋: VFHQ 및 TalkingHead-1KH 데이터셋을 사용하여 평가했습니다.
성능 비교:
- 동일 신원 (Same-identity): PSNR, SSIM, AKD(얼굴 구조), CSIM(정체성 보존) 등 대부분의 지표에서 기존 방법 (StyleHEAT, DPE, HiDe-NeRF 등) 보다 우수한 성능을 보였습니다.
- 서로 다른 신원 (Cross-identity): 타 방법들 (특히 DPE) 이 외모 교체나 아티팩트를 보인 반면, Export3D 는 원본 얼굴의 정체성을 유지하면서 운전자의 표정을 자연스럽게 전달했습니다. CSIM(정체성 보존) 점수가 가장 높았습니다.
Ablation Study:
- CLeBS의 효과: 사전 학습 없이 직접 3DMM 파라미터를 주입할 경우, 교차 신원 실험에서 눈썹이나 얼굴 윤곽 등 외모가 변하는 현상이 발생했으나, CLeBS 를 적용하면 이를 해결했습니다.
- EAdaLN 의 효과: EAdaLN 을 Cross-Attention 으로 대체할 경우 표정 제어의 정확도가 떨어졌으며, EAdaLN 이 표정 조건부 학습에 더 효과적임을 입증했습니다.
시각적 결과: 다양한 시점 (Novel-view) 에서도 일관된 영상을 생성하며, 깜빡임 (Flicker) 이나 빛의 변화와 같은 영상 수준의 아티팩트가 없음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 얼굴 애니메이션 분야에서 3D 일관성과 표정/외모 분리라는 두 가지 난제를 동시에 해결한 중요한 연구입니다.

기술적 혁신: 2D 왜곡이나 복잡한 변형 필드 예측 없이, 3DMM 파라미터를 정제하여 트라이-플레인을 직접 생성하는 새로운 패러다임을 제시했습니다.
실용성: 가상 아바타, 영화 더빙, 화상 회의 등 다양한 가상 인간 서비스에서 고품질의 얼굴 애니메이션을 생성할 수 있는 기반을 마련했습니다.
한계 및 향후 과제: 배경과 전경을 분리하여 렌더링하지 못하며 (전체적으로 렌더링됨), 3DMM 파라미터의 한계로 인해 눈동자 시선 (Eye Gaze) 이나 목/어깨와 같은 비얼굴 부위 제어는 불가능합니다. 향후 이러한 부분을 개선할 계획입니다.

요약하자면, Export3D는 대조 학습을 통해 3DMM 파라미터의 외모 노이즈를 제거하고, 이를 트라이-플레인 생성에 효과적으로 결합함으로써, 외모를 유지한 채로 다른 사람의 표정을 자연스럽게 전달하는 3D 인식 얼굴 애니메이션을 실현한 획기적인 연구입니다.