NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction

Each language version is independently generated for its own context, not a direct translation.

1. 기존 기술의 문제점: "부자연스러운 인형"

기존의 가상의 아바타 기술 (3D 가우시안 스플래팅 등) 은 마치 완벽하게 만들어진 플라스틱 인형에 그림을 그리는 것과 비슷합니다.

문제: 손이 얼굴을 살짝 누르면 얼굴 살이 찌그러지거나, 손 그림자가 얼굴에 생기는 순간, 플라스틱 인형은 그 변화를 따라가지 못합니다.
결과: 손이 얼굴에 닿은 부분이 뭉개지거나, 인형의 테두리가 흐릿하게 퍼지는 등 어색한 '아티팩트 (결함)'가 생깁니다. 마치 저화질 사진처럼 보일 수 있습니다.

2. NBAvatar 의 핵심 아이디어: "스마트한 스티커와 화가"

NBAvatar 는 이 문제를 해결하기 위해 두 가지 재료를 섞어 썼습니다.

A. '지능형 스티커' (Neural Billboards)

기존 기술이 구슬 (Gaussian) 을 쫙 깔아서 얼굴을 만들었다면, NBAvatar 는 **얼굴 모양에 딱 맞춰 붙는 '지능형 스티커'**를 사용합니다.

비유: 얼굴의 피부 위에 얇은 종이 조각 (스티커) 을 붙여놓은 imagine 해보세요. 손이 얼굴을 누르면, 이 종이 조각들이 얼굴 살처럼 함께 찌그러지고 움직입니다.
장점: 얼굴의 모양 (기하학) 을 정확하게 따라가므로, 손이 얼굴을 누를 때 생기는 주름이 매우 자연스럽게 표현됩니다.

B. '마법의 화가' (Deferred Neural Rendering)

하지만 스티커만 붙인다고 해서 빛이나 그림자가 자연스럽게 나오지는 않습니다. 그래서 **화면 위에서 그림을 그리는 '마법의 화가 (신경망 렌더러)'**가 추가되었습니다.

비유: 스티커가 얼굴의 '형체'를 담당한다면, 마법의 화가는 그 위에 빛, 그림자, 피부의 붉은기 같은 디테일을 실시간으로 그려 넣습니다.
특이점: 이 화가는 "손이 얼굴에 닿았으니 여기는 그림자를 드리우고, 피부가 눌렸으니 색을 살짝 바꾸자"라고 스스로 판단해서 그림을 그립니다. 별도의 복잡한 명령 없이도 주변 상황을 보고 자연스럽게 반응합니다.

3. 왜 이것이 특별한가요? (학습 과정의 비밀)

이 두 가지 (스티커와 화가) 를 함께 훈련시키는 것은 매우 까다롭습니다.

문제: 스티커가 움직이는지, 아니면 화가가 그림을 그리는지 혼동하면 결과가 엉망이 됩니다. (예: 손 그림자가 스티커 모양을 왜곡시켜버림)
해결책: 연구진은 **'가상 실루엣 검사'**라는 훈련 방식을 도입했습니다.
- 마치 인형의 실루엣을 오려내는 작업처럼, 스티커가 얼굴 모양을 정확히 따라오는지 먼저 확인하고, 그 후에 화가가 디테일을 추가하게 합니다.
- 이렇게 하면 스티커는 '모양'을, 화가는 '색과 그림자'를 각각 담당하게 되어 서로 간섭하지 않고 완벽하게 협력합니다.

4. 실제 효과: "눈이 뻔히 보이는 차이"

실험 결과, NBAvatar 는 기존 기술보다 훨씬 뛰어난 성능을 보였습니다.

선명한 디테일: 손이 얼굴을 만지는 부분의 주름이나 그림자가 매우 선명하고 자연스럽습니다.
새로운 각도/자세: 아바타가 처음 보는 자세를 취하거나, 카메라가 다른 각도에서 바라봐도 얼굴이 찌그러지거나 뭉개지지 않습니다.
수치적 성과: 기존 기술에 비해 화질 저하 (LPIPS) 가 최대 **30%**까지 줄어든 것으로 나타났습니다.

5. 결론

NBAvatar 는 **"얼굴 모양을 따라가는 스티커 (기하학)"**와 **"상황을 보고 그림을 그리는 화가 (신경망)"**를 결합하여, 손으로 얼굴을 만지는 복잡한 상황에서도 실제 사람처럼 자연스러운 가상의 아바타를 만들어냅니다.

이는 향후 **가상 회의 (텔레프레즌스)**나 VR 게임에서 아바타가 서로 대화할 때 손짓이나 표정, 심지어 손으로 얼굴을 만지는 행동까지도 매우 생생하게 전달할 수 있게 해줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

손 - 얼굴 상호작용의 현실적 렌더링 부재: 텔레프레즌스 (Telepresence) 및 가상현실 (VR) 응용 분야에서 손과 얼굴의 상호작용은 인간 커뮤니케이션의 핵심 요소이나, 기존 방법들은 이를 현실적으로 표현하는 데 어려움을 겪고 있습니다.
기존 방법의 한계:
- 머리 또는 손만 처리: 대부분의 기존 헤드 아바타 방법은 손이나 얼굴 중 하나만 렌더링하거나 상호작용을 고려하지 않습니다.
- 비강체 변형 및 색상 변화: 손이 얼굴을 만질 때 발생하는 비강체 (non-rigid) 변형 (피부 눌림) 과 그림자, 색상 변화 등을 처리하는 데 한계가 있습니다.
- 3D 가우시안 스플래팅 (3DGS) 의 결함: 최근 3DGS 기반 방법들 (InteractAvatar 등) 은 속도와 품질을 개선했으나, 경계선에서 가우시안이 튀어나오는 아티팩트, 흐릿한 얼굴 질감, 그리고 자세 의존적 색상 변화를 완벽하게 처리하지 못해 현실감이 떨어집니다.

2. 제안 방법 (Methodology)

저자들은 NBAvatar를 제안하며, 이는 명시적 (Explicit) 기하학과 암시적 (Implicit) 신경 렌더링을 결합한 하이브리드 표현 방식을 사용합니다.

A. Neural Billboards (신경 빌보드) 표현

개념: 3D 가우시안 대신 **방향성 평면 원시 (oriented planar primitives)**인 '빌보드'를 사용하되, 단순한 RGB 텍스처가 아닌 **신경 텍스처 (Neural Textures)**를 결합합니다.
구조:
- 명시적 기하학: FLAME(얼굴) 과 MANO(손) 파라메트릭 모델에 빌보드를 앵커 (Anchor) 하여 기하학적 변형을 추적합니다.
- 암시적 외관: 각 빌보드는 학습 가능한 6 채널의 신경 텍스처 ( $T^{NT}$ ) 와 불투명도 맵 ( $T^{\alpha}$ ) 을 가집니다.
- 렌더링: 레이 트레이싱을 통해 빌보드 텍스처 값을 누적한 후, **U-Net 기반의 지연 신경 렌더러 (Deferred Neural Renderer)**를 통과시켜 최종 RGB 이미지를 생성합니다. 이 과정에서 공간적 특징 집계 (Spatial Feature Aggregation) 를 통해 손 - 얼굴 접촉 시의 그림자 및 변형을 암시적으로 학습합니다.

B. 기하학 - 외관 분리 학습 (Geometry-Aware Training)

문제: 빌보드의 위치/회전 (기하학) 과 신경 텍스처 (외관) 가 서로의 역할을 대신하여 최적화가 불안정해질 수 있습니다.
해결책:
- 중간 실루엣 감독 (Intermediate Silhouette Supervision): 신경 텍스처 디코딩 전, 빌보드 라스터화 단계에서 불투명도 맵 ( $I_{\alpha}^{NB}$ ) 에 대해 **세그멘테이션 손실 (Segmentation Loss)**을 적용합니다.
- 효과: 이를 통해 빌보드가 지면 (Ground Truth) 실루엣에 밀착되도록 강제하여 기하학적 변형과 외관 변화 (그림자, 접촉 변형) 를 명확히 분리 (Disentangle) 합니다.
- 정규화: 인접한 빌보드 간의 KNN 정규화를 적용하여 매끄러운 변형을 유도하고, 빌보드가 메쉬 표면에서 크게 벗어나지 않도록 제한합니다.

3. 주요 기여 (Key Contributions)

Neural Billboards 도입: 표면 정렬 평면 원시 (Planar Primitives) 와 지연 신경 렌더링 (Deferred Neural Rendering) 을 결합한 새로운 하이브리드 아바타 표현 방식을 제안했습니다.
안정화된 최적화 기법: 기하학과 외관을 분리하여 학습을 안정화시키는 중간 실루엣 세그멘테이션 손실을 포함한 학습 스케줄을 제안했습니다.
명시적 상호작용 모듈 불필요: 손과 얼굴의 특징이 공유된 스크린 공간으로 라스터화되는 특성을 활용하여, 명시적인 상호작용 조건 모듈 없이도 공간적 특징 집계를 통해 복잡한 접촉 효과를 암시적으로 모델링할 수 있음을 증명했습니다.

4. 실험 결과 (Results)

데이터셋: Decaf 데이터셋 (다중 뷰 손 - 얼굴 상호작용 영상) 을 사용했습니다.
비교 대상: GaussianAvatars (GA), SplattingAvatar (SA), InteractAvatar (IA) 와 비교했습니다.
정량적 성능 (Megapixel 해상도 기준):
- LPIPS (지각적 거리): 기존 가우시안 기반 방법 (GA, SA) 대비 최대 30% 감소 (0.056 vs 0.076/0.080). 이는 지각적 품질이 크게 향상되었음을 의미합니다.
- PSNR 및 SSIM: 대부분의 경우 기존 방법보다 우수한 또는 경쟁력 있는 수치를 기록했습니다.
- InteractAvatar 비교: 동일한 평가 프로토콜 하에서 InteractAvatar 대비 구조적 유사성 (SSIM) 이 더 높았으며, PSNR/LPIPS 수치 차이는 전처리 차이로 판단되지만, 정성적 평가에서는 훨씬 선명한 얼굴 디테일과 자연스러운 접촉 변형을 보여줍니다.
정성적 성능:
- 손이 얼굴을 누를 때 발생하는 비강체 변형과 그림자를 매우 사실적으로 재현합니다.
- 가우시안 기반 방법에서 흔히 발생하는 경계선의 '서리 낀 패턴 (frosty pattern)'이나 튀어나온 아티팩트가 제거되어 깔끔한 실루엣을 유지합니다.
- 새로운 자세 (Novel Pose) 와 새로운 뷰 (Novel View) 에서도 일반화 성능이 뛰어납니다.

5. 의의 및 결론 (Significance)

기술적 혁신: 3DGS 의 속도와 NeRF/DNR 의 높은 품질을 모두 얻으면서, 특히 손 - 얼굴 상호작용이라는 난제에 특화된 솔루션을 제시했습니다.
응용 가능성: 고해상도 메가픽셀 렌더링이 가능한 실시간 아바타 애니메이션, 텔레프레즌스, 메타버스 등에서의 현실적인 상호작용 구현에 기여합니다.
한계 및 향후 과제: 현재 방법은 3DMM (FLAME/MANO) 모델의 피팅 품질에 민감합니다. 향후에는 피팅 오차를 보상할 수 있는 자세 의존적 워핑 (Warping) 메커니즘을 추가하여 이를 개선할 계획입니다.

요약하자면, NBAvatar 는 명시적인 기하학적 구조와 암시적인 신경 텍스처를 결합하고, 세그멘테이션 손실을 통해 학습을 안정화시킴으로써, 손과 얼굴의 복잡한 상호작용을 포함한 초현실적인 아바타 렌더링을 가능하게 한 획기적인 연구입니다.