Consistency-Preserving Diverse Video Generation

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "한 번에 여러 개 만들 때 생기는 딜레마"

상상해 보세요. 당신이 AI 에게 "고양이가 춤을 추는 영상을 만들어줘"라고 주문했습니다. 하지만 AI 는 한 번에 한 번만 영상을 만들어주는 게 아니라, 동시에 4 개의 다른 버전을 만들어주려고 합니다.

목표 1 (다양성): 4 개의 영상은 서로 완전히 달라야 합니다. (예: 하나는 노란 고양이, 하나는 검은 고양이, 하나는 배경이 바다, 하나는 배경이 산 등)
목표 2 (일관성): 각 영상 안에서는 매끄러워야 합니다. 고양이가 갑자기 툭툭 끊기거나, 색이 변하거나, 몸이 뚝뚝 잘리는 일이 없어야 합니다.

기존의 문제점:
기존 방법들은 "다양하게 만들자!"라고 너무 열심히 노력하다 보니, 영상 내부의 흐름이 깨져버리는 문제가 있었습니다. 마치 4 개의 다른 영화를 만들려고 너무 급하게 찍어서, 한 영화 안에서 배우가 갑자기 사라지거나 배경이 뒤죽박죽이 되는 꼴이었습니다. 또한, 이걸 고치려면 컴퓨터가 엄청난 계산을 해야 해서 너무 느리고 비쌌습니다.

💡 2. 해결책: "다양성은 유지하되, 흐트러짐은 막는 '스마트 가이드'"

이 논문에서 제안한 방법은 "다양성을 추구하되, 일관성을 해치는 부분만 잘라내는" 지능적인 시스템입니다.

🌊 비유: "강물 (영상) 을 흐르게 하되, 범람은 막기"

기본 흐름 (Flow Matching): AI 는 처음엔 잡음 (노이즈) 에서 시작해 점점 선명한 영상으로 변해가는 '강물'을 만들어냅니다.
다양성 추가 (Diversity): "너네 4 개는 서로 달라야 해!"라고 외치며 강물들이 서로 다른 방향으로 흐르게 만듭니다.
일관성 보호 (Consistency Preservation): 하지만 여기서 중요한 건, "너희가 서로 달라지는 건 좋지만, 너희 각자 내부의 흐름 (강물) 이 끊기면 안 돼"라는 규칙입니다.

이 시스템은 다양성을 위해 움직이려 할 때, 만약 그 움직임이 영상 내부의 흐름을 망가뜨린다면 그 부분만 딱 잘라내고 나머지는 그대로 진행시킵니다. 마치 "너는 왼쪽으로 가도 되지만, 앞으로는 가지 마"라고 정밀하게 지시하는 것과 같습니다.

🛠️ 3. 기술적 비밀: "무거운 카메라 대신 가벼운 안경"

기존 방법들은 영상을 만들어낸 뒤, 다시 그 영상을 분석해서 "아, 여기가 깨졌네"라고 고치려 했습니다. 이는 고화질 카메라로 찍은 영상을 다시 한 번 분석하는 것이라서 컴퓨터가 매우 느리고 무거웠습니다.

이 논문은 가벼운 안경 (잠재 공간 모델) 을 끼고 문제를 해결합니다.

비유: 고화질 영상을 직접 다 분석하는 대신, AI 가 머릿속에서 그 영상의 '핵심 요약본 (잠재 공간)'만 보고 "여기서 다양하게 만들고, 저기서 일관성 있게 유지하자"라고 빠르게 결정합니다.
효과: 영상을 다 만들어서 고칠 필요도, 무거운 계산을 할 필요도 없습니다. 그래서 속도는 빠르고, 결과물은 훨씬 자연스럽습니다.

🏆 4. 결과: "다양하고, 매끄럽고, 자연스러운 영상"

실험 결과, 이 방법을 쓰면 다음과 같은 변화가 생깁니다.

다양성: 다른 AI 들이 만든 4 개 영상과 비슷하게 서로 확실히 다릅니다. (고양이 종류, 배경 등이 다양함)
일관성: 기존 방법들보다 훨씬 매끄럽습니다. 고양이가 갑자기 사라지거나 색이 변하는 일이 거의 없습니다.
자연스러움: 영상의 색감이 훨씬 더 자연스럽고 눈이 편안합니다.

📝 한 줄 요약

"AI 가 여러 개의 영상을 만들 때, 서로 다르게 만들려고 너무 급하게 뛰지 말고, 각자 내부의 흐름을 해치지 않는 선에서만 자유롭게 움직이게 해주는 똑똑한 '규칙'을 만들어냈습니다."

이 기술 덕분에 앞으로 우리가 AI 로부터 더 다양하면서도 영화처럼 매끄러운 영상을 더 빠르게, 더 저렴하게 얻을 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

텍스트 기반 비디오 생성 (Text-to-Video) 은 계산 비용이 매우 높기 때문에, 주어진 프롬프트당 생성되는 샘플 수가 제한적입니다. 이러한 저샘플 (low-sample) 환경에서 각 배치 (batch) 의 가치를 극대화하기 위해서는 **생성된 비디오들 간의 높은 다양성 (Cross-video diversity)**이 필수적입니다.

하지만 기존 이미지 생성 분야의 다양성 증대 방법들을 비디오에 적용할 때 다음과 같은 심각한 문제들이 발생합니다:

시간적 일관성 저하: 비디오 내 프레임 간의 시간적 일관성 (Temporal consistency) 이 깨져서 영상이 불안정해지거나 깜빡이는 현상이 발생합니다.
높은 계산 비용: 기존 방법들은 이미지 공간 (Image space) 에서 다양성 그래디언트를 계산하고 비디오 디코더를 통해 역전파 (Backpropagation) 를 수행해야 하므로, 고차원인 비디오 데이터 처리 시 메모리 부담이 커지고 병렬 처리가 어렵습니다.

따라서 본 연구의 목표는 비디오 배치 간의 다양성을 높이면서도, 개별 비디오 내의 시간적 일관성을 유지하고, 디코더 역전파 없이 효율적으로 이를 달성하는 것입니다.

2. 방법론 (Methodology)

저자들은 Flow-matching 기반 비디오 생성기를 위한 일관성 유지 결합 샘플링 (Consistency-Preserving Joint Sampling) 프레임워크를 제안합니다. 핵심 아이디어는 다음과 같습니다.

가. 잠재 공간 (Latent Space) 기반 접근

고비용인 이미지/비디오 공간의 그래디언트 계산을 피하기 위해, **가벼운 잠재 공간 모델 (Lightweight latent-space models)**을 훈련하여 모든 목적 함수 (Objective) 와 그래디언트를 잠재 공간에서 계산합니다.
이를 통해 비디오 디코더의 순전파 (Forward) 및 역전파 (Backward) 를 제거하여 계산 효율성을 극대화합니다.

나. 다양성 및 일관성 목적 함수

다양성 목적 함수 (Diversity Objective):
- 비디오 레벨과 프레임 레벨의 잠재 임베딩 (Latent embeddings) 을 사용합니다.
- **DPP (Determinantal Point Process)**를 기반으로 한 목적 함수를 사용하여 샘플 간의 거리를 최대화하는 방향의 '다양성 속도 (Diversity velocity)'를 유도합니다.
일관성 목적 함수 (Consistency Objective):
- **잠재 프레임 보간 모델 (Latent frame interpolation model)**을 사용하여 인접 프레임 간의 일관성을 평가합니다.
- 보간된 프레임과 실제 프레임 간의 오차를 최소화하는 방향으로 '일관성 그래디언트'를 계산합니다.

다. 그래디언트 조절 (Gradient Regulation)

단순히 다양성 그래디언트를 추가하면 일관성이 깨질 수 있습니다. 이를 해결하기 위해 그래디언트 조절 기법을 적용합니다.
다양성 그래디언트 ( $g_d$ ) 에서 일관성 목적 함수를 감소시키는 성분 (일관성 그래디언트 $g_c$ 와 반대 방향인 성분) 만 제거합니다.
수식적으로, $g_d$ 를 $g_c$ 에 투영하여 음수인 부분 ( $\alpha < 0$ ) 을 잘라내고, 나머지 성분은 유지합니다. 이를 통해 일관성을 해치지 않는 범위 내에서만 다양성을 증대시킵니다.

3. 주요 기여 (Key Contributions)

일관성 유지 결합 샘플링 프레임워크: Flow-matching 비디오 생성기에서 그래디언트 조절 (Gradient Regulation) 을 통해 다양성과 시간적 일관성을 동시에 최적화하는 새로운 방법을 제안했습니다.
가벼운 잠재 공간 모델: 비디오 디코더 없이도 다양성과 일관성 목적 함수를 계산할 수 있도록 훈련된 임베딩 및 보간 모델을 개발하여 계산 비용을 획기적으로 줄였습니다.
성능 입증: 기존 강력한 결합 샘플링 기법들과 비교하여 유사한 수준의 다양성을 유지하면서도, 시간적 일관성과 색상의 자연스러움을 획기적으로 개선함을 실험을 통해 증명했습니다.

4. 실험 결과 (Results)

실험 설정: SOTA 텍스트 - 비디오 모델인 **Wan 2.1 (t2v-1.3B)**을 기반으로 10 가지 프롬프트에 대해 각 4 개의 비디오를 결합하여 생성했습니다.
비교 대상: IID(독립 샘플링), DPP, Particle Guidance, DiverseFlow 등 기존 다양성 증대 기법들.
주요 성과 (Table I 기준):
- 다양성 (Vendi Score): 기존 결합 샘플링 기법 (DPP, DiverseFlow 등) 과 유사하거나 더 높은 수준의 다양성 (Vendi-v: 0.155) 을 달성했습니다.
- 시간적 일관성 (MSE): 기존 방법들이 일관성을 크게 저하시킨 것 (MSE 0.0028~0.0029) 과 달리, 제안 방법은 MSE 0.0019로 현저히 낮은 오차를 보여 일관성이 훨씬 뛰어납니다.
- 색상 자연스러움 (CNI): 제안 방법은 0.69로 가장 높은 점수를 기록하여 색감이 더 자연스러웠습니다.
Ablation Study: 일관성 조절 (Consistency Regulation) 이 MSE 와 CNI 를 개선하는 핵심 요소임을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 고비용인 비디오 생성 작업에서 **"적은 샘플로 더 많은 가치를 얻는 것"**이라는 실용적인 문제를 해결합니다. 특히, 디코더를 거치지 않는 잠재 공간 기반의 경량화 접근법은 비디오 생성 분야에서 계산 자원을 효율적으로 사용하면서도 품질 (일관성) 을 유지하는 새로운 패러다임을 제시합니다. 이는 미디어 콘텐츠 제작 및 가상 현실 등 다양한 분야에서 고품질 비디오 생성의 실용성을 높이는 중요한 기여로 평가됩니다.