Generative Neural Video Compression via Video Diffusion Prior

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "비디오를 너무 많이 짜내다 보니..."

비디오를 인터넷으로 보낼 때 용량을 줄이기 위해 '압축'을 합니다. 마치 젖은 수건을 꽉 짜서 물을 빼는 것과 비슷하죠.

기존 방식 (전통적/학습형): 수건을 너무 꽉 짜면 물 (화질) 이 빠지는 대신, 수건이 찌그러지고 주름이 잡힙니다. 화질이 흐릿해지고, 세부적인 질감 (머리카락, 옷감의 무늬 등) 이 사라집니다.
최근의 시도 (생성형 AI): "아니면 AI 가 빈 부분을 상상해서 채워보자!"라고 생각했습니다. 하지만 이 방식은 이미지용 AI를 썼기 때문에, 한 장씩 그릴 때는 예쁘지만, 연속된 장면을 만들면 매우 불안정해집니다. 마치 춤추는 사람이 매 프레임마다 옷차림이 바뀌거나 얼굴이 흔들리는 것처럼, 화면이 꾸준히 떨리는 (Flickering) 현상이 발생합니다.

🌟 2. 해결책: GNVC-VD (우리의 주인공)

이 논문은 **"비디오 전용 AI(Video Diffusion Prior)"**를 압축 기술에 처음 접목했습니다.

🧠 핵심 비유: "현미경으로 본 수리공 vs. 전체를 보는 감독"

기존 생성형 AI (이미지 기반):
- 비유: 한 장의 사진을 보며 "이 구름은 이렇게 그려야지"라고 프레임 단위로 그림을 그리는 화가입니다.
- 문제: 다음 프레임도 똑같이 그리려 해도, AI 가 기억력이 짧아 매번 조금씩 다르게 그립니다. 그래서 영상이 떨리고 불안정해집니다.
GNVC-VD (비디오 기반):
- 비유: 영화 감독이 전체 시나리오를 보고, 배우들의 움직임과 배경이 자연스럽게 이어지도록 연속된 장면 전체를 지시합니다.
- 특징: AI 가 "이건 비디오야!"라고 인식하고, 시간의 흐름 (움직임) 을 고려해서 그림을 그립니다.

⚙️ 3. 어떻게 작동할까? (세 가지 단계)

이 기술은 크게 두 가지 일을 동시에 합니다.

① "데이터를 꽉 짜기" (압축)

비디오를 3D VAE(압축기) 를 통해 아주 작은 데이터 덩어리 (잠재 변수) 로 만듭니다. 이때 기존 기술처럼 프레임끼리 연결해서 불필요한 정보를 제거합니다.

② "AI 가 다시 채워주기" (생성적 보정)

핵심 아이디어: AI 가 처음부터 아무것도 없는 상태 (흰 화면) 에서 그림을 그리는 게 아니라, 압축된 흐릿한 그림을 보고 "어디가 부족했지?"를 찾아서 수정합니다.
비유:
- 기존: 빈 캔버스에 AI 가 그림을 그립니다. (시간이 오래 걸리고, 연속성이 깨질 수 있음)
- GNVC-VD: 이미 그려진 초벌 그림 (압축된 비디오) 을 AI 가 보고, "여기 질감을 더 살리고, 저기 움직임을 자연스럽게 이어줘"라고 보정합니다.
- 결과: 흐릿했던 부분이 선명해지지만, AI 가 임의로 엉뚱한 것을 만들어내지 않아 떨림 없이 안정적입니다.

🏆 4. 왜 이것이 특별한가요? (성과)

초저비트레이트 (매우 작은 용량): 데이터가 아주 적을 때 (0.01 bpp 미만) 기존 기술들은 완전히 흐릿해지거나 떨렸지만, GNVC-VD 는 선명한 질감을 유지합니다.
떨림 제거: 다른 생성형 AI 들이 보였던 "화면이 꿈틀거리는" 현상을 거의 없앴습니다.
자연스러운 움직임: 사람이 걷거나 물이 흐르는 것처럼, 시간의 흐름에 따라 자연스럽게 이어집니다.

📝 5. 한 줄 요약

"GNVC-VD 는 비디오를 압축할 때, AI 가 빈 화면을 새로 그리는 게 아니라 '흐릿해진 원본'을 보고 시간의 흐름까지 고려해 자연스럽게 '수리'하는 기술입니다. 그 결과, 용량은 작지만 화질은 선명하고 화면은 흔들리지 않는 완벽한 비디오를 만들어냅니다."

이 기술은 앞으로 우리가 모바일이나 저사양 기기에서도 고화질의 생생한 영상을 즐길 수 있는 길을 열어줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

초저 비트레이트에서의 지각적 붕괴: 신경망 기반 비디오 압축 (NVC) 은 전통적인 하이브리드 코덱 (HEVC, VVC) 보다 효율이 좋지만, 비트레이트가 극도로 낮아지면 (0.03 bpp 미만) MSE 와 같은 왜곡 중심의 목적 함수가 텍스처를 과도하게 평활화 (oversmooth) 하여 미세한 구조를 잃게 만듭니다. 이로 인해 지각적 현실감이 급격히 떨어집니다.
기존 생성형 코덱의 한계 (Temporal Flickering): 이미지 생성 모델 (GAN, 이미지 Diffusion) 을 사전 학습된 Prior 로 활용하는 기존 생성형 코덱 (예: GLC-Video) 은 고주파 텍스처를 복원하여 선명한 이미지를 만듭니다. 하지만 이러한 모델들은 **프레임 단위 (Frame-wise)**로 작동하여 시간적 동역학을 모델링하지 못합니다. 그 결과, 복원된 영상의 텍스처가 프레임 간에 불안정하게 변하며 심각한 **시간적 깜빡임 (Temporal Flickering)**과 구조적 왜곡 (Hallucination) 이 발생합니다.
핵심 과제: 초저 비트레이트 환경에서 선명한 텍스처를 복원하면서도, 프레임 간 일관성을 유지하여 깜빡임 없이 자연스러운 비디오를 생성하는 방법의 부재.

2. 제안 방법론 (Methodology: GNVC-VD)

저자들은 비디오 네이티브 (Video-native) 생성 Prior를 활용하여 위 문제를 해결하는 GNVC-VD를 제안합니다. 이는 사전 학습된 비디오 확산 트랜스포머 (VideoDiT, Wan2.1 기반) 를 코덱에 통합한 최초의 프레임워크입니다.

주요 구성 요소:

시공간 잠재 공간 압축 (Spatio-Temporal Latent Compression):
- 입력 비디오를 3D Causal VAE (Wan2.1) 를 통해 압축된 시공간 잠재 벡터 (Latent) 시퀀스로 변환합니다.
- Contextual Transform Codec: DCVC-RT 와 유사하게, 이전 프레임의 디코딩된 잠재 벡터를 컨텍스트로 활용하여 현재 프레임의 잠재 벡터를 예측 및 압축합니다. 이를 통해 프레임 간 시간적 중복성을 제거하고 장기적인 시간적 구조를 보존합니다.
Flow-Matching 기반 잠재 공간 정제 (Flow-Matching Latent Refinement):
- 비디오 Diffusion Prior 활용: 압축된 잠재 벡터 ( $\hat{x}_c$ ) 를 직접 입력으로 받아, 비디오 Diffusion Transformer (VideoDiT) 를 통해 시퀀스 단위로 정제합니다.
- 순수 가우스 노이즈가 아닌 보정 (Correction): 기존 비디오 생성이 순수 가우스 노이즈에서 시작하는 것과 달리, GNVC-VD 는 압축된 잠재 벡터에 부분적인 노이즈를 추가한 상태 ( $x_{tN}$ ) 에서 시작합니다.
- 조건부 어댑터 (Conditioning Adapter): 압축 과정에서 추출된 컨텍스트 특징 (Contextual Features) 을 VideoDiT 의 중간 레이어에 주입하여, 생성 Prior 가 압축으로 인한 왜곡 (Quantization Error) 에 맞춰 보정항 ( $\Delta v_{fine}$ ) 을 학습하도록 유도합니다.
- 시퀀스 단위 정제: 개별 프레임이 아닌 I 프레임과 P 프레임 전체를 하나의 시퀀스로 간주하여 정제하므로, 시간적 일관성이 보장됩니다.
2 단계 학습 전략 (Two-Stage Training):
- Stage 1 (잠재 공간 정렬): 압축된 잠재 벡터와 Ground Truth 잠재 벡터 간의 정렬을 통해, 코덱과 Diffusion 어댑터가 생성 Prior 의 매니폴드 (Manifold) 와 호환되도록 학습합니다.
- Stage 2 (픽셀 단위 미세 조정): 전체 파이프라인을 픽셀 도메인에서 미세 조정하여, 지각적 품질 (Perceptual Quality) 과 시간적 일관성을 극대화합니다.

3. 주요 기여 (Key Contributions)

최초의 비디오 네이티브 생성 NVC 프레임워크: 이미지 기반 Prior 가 아닌, VideoDiT를 기반으로 하여 시공간 잠재 공간의 정렬과 정제를 통합한 최초의 신경 비디오 압축 프레임워크를 제안했습니다.
시퀀스 단위 생성적 정제 메커니즘: 프레임 단위 정제를 넘어, Flow-Matching 과 조건부 어댑터를 통해 압축된 시공간 잠재 벡터 전체를 일관되게 정제하는 메커니즘을 도입했습니다.
극저 비트레이트에서의 깜빡임 제거: 기존 생성형 코덱이 겪던 시간적 불안정성을 해결하여, 0.01 bpp 이하의 극저 비트레이트에서도 선명한 텍스처와 안정적인 움직임을 동시에 구현했습니다.

4. 실험 결과 (Results)

지각적 품질 (Perceptual Quality): HEVC-B, UVG, MCL-JCV 등 다양한 벤치마크에서 0.03 bpp 이하 구간에서 기존 전통적 코덱 (HEVC, VVC), 학습된 코덱 (DCVC-FM/RT), 그리고 기존 생성형 코덱 (GLC-Video) 을 모두 압도하는 LPIPS 와 DISTS 점수를 기록했습니다.
- 특히 GLC-Video 대비 DISTS 기준 BD-rate 감소율이 86% 에 달했습니다.
시간적 일관성 (Temporal Consistency):
- Ewarp (Warped Error): GLC-Video 가 86.5 의 높은 오차를 보인 반면, GNVC-VD 는 66.6 으로 크게 개선되어 프레임 간 깜빡임이 현저히 줄어듦을 입증했습니다.
- CLIP-F (Semantic Continuity): 의미론적 연속성에서도 기존 생성형 모델보다 우수한 성능을 보였습니다.
시각적 비교: 초저 비트레이트에서 VVC 나 DCVC-RT 는 흐릿한 이미지를 생성하고, GLC-Video 는 텍스처는 선명하지만 깜빡임이 심한 반면, GNVC-VD 는 선명한 텍스처와 안정적인 움직임을 동시에 제공했습니다.
사용자 연구: 주관적 평가에서 VVC, DCVC 시리즈, GLC-Video 대비 85%~98% 의 선호도를 기록했습니다.

5. 의의 및 결론 (Significance)

차세대 지각적 비디오 압축의 패러다임 전환: 이 연구는 비디오 압축이 단순히 픽셀 재구성이 아니라, 비디오 네이티브 생성 모델에 의한 시퀀스 단위 조건부 노이즈 제거 과정으로 재정의될 수 있음을 보여줍니다.
실용적 가치: 극저 비트레이트 환경 (예: 저대역폭 통신, AR/VR 스트리밍) 에서 인간의 지각을 고려한 고품질 비디오 전송을 가능하게 하며, 기존 생성형 모델의 시간적 불안정성 문제를 해결함으로써 실용화 가능성을 높였습니다.
미래 방향: Diffusion 기반 정제의 추론 속도 향상과 변환 코딩 모듈의 효율성 개선이 향후 연구 과제로 제시되었습니다.

요약하자면, GNVC-VD는 비디오 생성 모델의 강력한 시공간 이해 능력을 압축 기술에 접목하여, "선명하지만 불안정한" 기존 생성형 코덱의 단점을 극복하고 "선명하면서도 안정적인" 초저 비트레이트 비디오 복원을 실현한 획기적인 연구입니다.