Each language version is independently generated for its own context, not a direct translation.

"모드 찾기"와 "평균 찾기"의 만남: 긴 영상을 빠르게 만드는 새로운 비법

이 논문은 **"몇 초짜리 짧은 영상은 잘 만들 수 있는데, 왜 몇 분짜리 긴 영상은 만들기가 이렇게 어려운가?"**라는 질문에 대한 해답을 제시합니다. 연구팀 (NVIDIA 와 스탠포드 대학 등) 은 이 문제를 해결하기 위해 **'모드 찾기 (Mode Seeking)'**와 **'평균 찾기 (Mean Seeking)'**라는 두 가지 서로 다른 전략을 하나로 합친 새로운 방법을 개발했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: 왜 긴 영상은 더 어려울까요?

짧은 영상 (5 초): 인터넷에 넘쳐나는 고양이 영상, 춤추는 영상처럼 데이터가 풍부합니다. 모델은 이 많은 데이터를 보고 "예쁜 영상"의 패턴을 잘 익힙니다.
긴 영상 (1 분~): 이야기가 있고, 장면이 바뀌고, 시간이 흐르는 '긴 영상'은 데이터가 매우 부족합니다.
기존의 실수: 많은 연구자들은 "짧은 영상을 잘 만드는 모델을 길게 늘려서 쓰면 되겠지?"라고 생각했습니다. 하지만 이는 이미지 해상도와 영상 길이를 혼동한 것입니다.
- 이미지: 256 화질에서 1024 화질로 올리는 것은 같은 그림을 더 선명하게 만드는 것 (보간) 입니다.
- 영상: 5 초 영상에서 1 분 영상으로 늘리는 것은 **새로운 사건과 이야기를 만들어내는 것 (외삽)**입니다. 단순히 늘리는 것만으로는 이야기가 꼬이거나, 얼굴이 흐릿해지거나, 움직임이 뚝 끊기는 문제가 발생합니다.

2. 해결책: 두 명의 선생님, 한 명의 학생

이 연구팀은 긴 영상을 만드는 '학생 모델'에게 두 명의 다른 선생님을 붙여주었습니다.

🧑‍🏫 선생님 A: "장면의 흐름을 아는 감독" (평균 찾기 - Mean Seeking)

역할: 1 분짜리 긴 영상 데이터를 보며 **전체적인 이야기 흐름 (내러티브)**을 가르칩니다.
비유: 마치 영화 감독처럼 "이 장면 다음에 저 장면이 와야 이야기가 자연스럽게 이어진다"는 전체적인 구조를 알려줍니다.
한계: 하지만 이 감독은 "세부적인 화질"이나 "매우 자연스러운 미세한 움직임"까지는 잘 가르치지 못합니다. (데이터가 부족해서요.)

🧑‍🏫 선생님 B: "세부 묘사에 능한 사진작가" (모드 찾기 - Mode Seeking)

역할: 5 초짜리 짧은 영상 데이터를 보며 매우 선명하고 생생한 국부적인 화질을 가르칩니다.
비유: 마치 전문 사진작가처럼 "피사체의 눈동자 반사, 옷 주름, 빛의 반사" 같은 세부적인 디테일을 완벽하게 기억하고 있습니다. 하지만 1 분짜리 긴 이야기를 만들 능력은 없습니다.
특징: 이 선생님은 얼어붙은 (Frozen) 상태입니다. 즉, 새로운 것을 배우지 않고 기존에 잘 알고 있는 것만 학생에게 알려줍니다.

3. 핵심 기술: "Decoupled Diffusion Transformer" (분리된 구조)

기존에는 한 명의 모델이 두 가지 임무 (전체 흐름 + 세부 화질) 를 동시에 하려고 해서 서로 간섭이 생겼습니다. (흐름을 맞추려다 화질이 흐려지거나, 화질을 맞추려다 이야기가 꼬이는 식입니다.)

이 논문은 두 개의 머리를 가진 모델을 만들었습니다.

공통 두뇌 (인코더): 영상 전체를 이해하는 기본 지식은 공유합니다.
머리 1 (Flow Matching): 선생님 A(감독) 의 지시를 받아 전체적인 이야기 흐름을 잡습니다.
머리 2 (Distribution Matching): 선생님 B(사진작가) 의 지시를 받아 **슬라이딩 윈도우 (짧은 구간)**마다 화질과 움직임을 선명하게 다듬습니다.

핵심 아이디어:

전체 흐름은 '감독'에게서 배우고,
국부적인 화질은 '사진작가'에게서 배웁니다.
이렇게 역할을 분리했기 때문에 서로 방해하지 않고, 각각의 장점을 극대화할 수 있습니다.

4. 결과: 빠르고, 선명하고, 긴 영상

이 방법을 사용하면 어떤 장점이 있을까요?

빠른 생성 (Few-step): 기존의 긴 영상 생성은 여러 단계를 거쳐야 했지만, 이 방법은 '사진작가' 선생님의 지식을 활용해 매우 적은 단계로 영상을 만들어냅니다. (약 4 단계만 거치면 됩니다.)
높은 화질: 5 초짜리 짧은 영상처럼 선명하고 생동감이 넘칩니다.
일관성: 1 분 동안 이야기가 꼬이지 않고 캐릭터와 배경이 일관되게 유지됩니다.

5. 요약: 한 마디로 표현하면?

"긴 이야기의 흐름을 잡는 '감독'과, 매 장면의 화질을 다듬는 '사진작가'를 한 팀으로 꾸려, 짧지만 선명한 영상을 잘 만드는 기술을 긴 영상에도 적용한 것"

이 기술은 앞으로 인터랙티브한 게임, 장편 애니메이션, 혹은 AI 가 만드는 영화 등을 훨씬 빠르고 고품질로 만들어낼 수 있는 기반이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현재 비디오 생성 모델은 수초 길이의 짧은 클립을 생성하는 데서는 뛰어난 성과를 보이지만, 이를 수분 (minutes) 단위의 긴 영상으로 확장하는 데에는 치명적인 병목 현상이 존재합니다.

데이터의 불균형: 고화질의 짧은 영상 데이터는 웹 규모로 풍부하지만, 일관된 서사 구조를 가진 고품질의 긴 영상 데이터는 매우 부족하고 선별 비용이 높습니다.
시간적 외삽 (Temporal Extrapolation) 의 오해: 이미지 생성에서 해상도를 높이는 것이 '보간 (interpolation)'이라면, 짧은 영상을 긴 영상으로 늘리는 것은 새로운 사건, 인과 관계, 서사 구조를 추가해야 하는 **'외삽 (extrapolation)'**입니다. 단순히 다양한 길이의 데이터를 섞어 학습하는 기존 방식은 이 근본적인 차이를 간과합니다.
정확도 - 시야 거리 간극 (Fidelity-Horizon Gap): 긴 영상을 생성하려는 모델은 종종 국소적인 디테일 (선명도, 움직임) 이 흐릿해지거나 생동감이 떨어지는 문제가 발생합니다. 이는 짧은 영상 학습에서 얻은 고충실도 (high-fidelity) 사전 지식을 긴 영상 학습 데이터의 부족함 때문에 잃어버리기 때문입니다.

2. 방법론 (Methodology)

저자들은 Decoupled Diffusion Transformer (DDT) 아키텍처를 기반으로 한 새로운 학습 패러다임을 제안합니다. 핵심 아이디어는 **국소적 충실도 (Local Fidelity)**와 **장기적 일관성 (Long-term Coherence)**을 분리하여 학습하는 것입니다.

가. 핵심 개념: Mode Seeking vs Mean Seeking

Mean Seeking (평균 추구): 긴 영상 전체의 서사 구조와 시간적 일관성을 학습하기 위해 사용됩니다. 제한된 긴 영상 데이터에 대한 감독 학습 (Supervised Flow Matching) 을 수행하여, 불확실성이 있는 상황에서 평균적인 경향을 따르게 합니다.
Mode Seeking (모드 추구): 국소적인 영역 (슬라이딩 윈도우) 에서의 고화질, 선명한 디테일을 유지하기 위해 사용됩니다. 고정된 짧은 영상 전문가 모델 (Teacher) 의 분포에 맞추어, 학생 모델이 Teacher 의 고충실도 모드 (high-fidelity modes) 에 집중하도록 유도합니다.

나. 아키텍처: Decoupled Diffusion Transformer (DDT)

단일 모델이 두 가지 상충되는 목표를 동시에 만족시키기 어렵기 때문에, 공유 인코더와 두 개의 분리된 헤드를 가진 구조를 사용합니다.

공유 조건 인코더 (Shared Condition Encoder): 노이즈가 추가된 긴 영상 잠재 공간 (latent) 을 받아 통합된 표현 ( $h_t$ ) 을 생성합니다.
Flow Matching (FM) 헤드 (Mean Seeking):
- 역할: 실제 긴 영상 데이터에 대한 감독 학습 (SFT) 을 수행합니다.
- 목표: 분 단위의 글로벌 서사 구조와 장기적인 시간적 의존성을 학습합니다.
Distribution Matching (DM) 헤드 (Mode Seeking):
- 역할: 고정된 짧은 영상 Teacher 모델과 슬라이딩 윈도우 단위로 정렬합니다.
- 목표: 역 KL 발산 (Reverse-KL Divergence) 을 사용하여 Student 모델이 Teacher 의 고충실도 모드를 따르도록 합니다. 이는 DMD (Distribution Matching Distillation) 또는 VSD 기법을 슬라이딩 윈도우에 적용하여 구현됩니다.

다. 학습 및 추론 프로세스

학습: FM 헤드는 긴 영상 데이터로, DM 헤드는 Teacher 모델과의 정렬 (Reverse-KL) 로 동시에 학습됩니다. 두 헤드는 서로 다른 그라디언트 신호를 받지만 공유 인코더를 통해 정보를 교환합니다.
추론 (Inference): 추론 시에는 DM 헤드만 사용합니다. DM 헤드는 Teacher 모델의 고충실도 특성을 학습했기 때문에, 몇 단계 (few-step) 만으로도 빠르고 선명한 장면을 생성할 수 있습니다. 공유 인코더가 학습된 장기적 맥락을 제공하므로, DM 헤드만으로도 긴 영상을 끝까지 생성할 수 있습니다.

3. 주요 기여 (Key Contributions)

슬라이딩 윈도우 기반 모드 추구 정렬: 추가적인 짧은 영상 데이터 없이, 생성된 긴 영상의 모든 슬라이딩 윈도우를 고정된 짧은 영상 Teacher 모델에 Reverse-KL 로 정렬하여 국소적 리얼리즘을 유지합니다.
분리된 타겟 학습 (Decoupled Training): DDT 를 활용하여 글로벌 일관성 (Flow Matching) 과 국소적 품질 (Distribution Matching) 을 분리된 헤드로 학습시킴으로써, 두 목표 간의 그라디언트 간섭을 해결했습니다.
고속 추론 가능: 추론 시 DM 헤드만 사용하여, 기존 확산 모델의 다단계 샘플링 없이도 빠른 (few-step) 장시간 비디오 생성이 가능해졌습니다.

4. 실험 결과 (Results)

정량적 평가 (VBench-Long 및 Gemini-3-Pro):
- 제안된 방법은 Subject Consistency, Background Consistency, Motion Quality, Aesthetic Quality 등 모든 지표에서 기존 방법 (Long-context SFT, Mixed-length SFT, CausVid, Self-Forcing 등) 보다 우수한 성능을 보였습니다.
- 특히, SFT 기반 방법들은 장기 일관성은 좋으나 화질이 흐릿하고, Teacher 기반 방법들은 화질은 좋으나 장기 일관성이 떨어지는 문제를 해결하여 전체적인 성능을 균형 있게 향상시켰습니다.
정성적 평가:
- 긴 영상에서도 피사체의 선명도와 배경의 자연스러운 변화가 유지되었으며, SFT 기반 방법에서 흔히 발생하는 모호한 실루엣이나 Teacher 기반 방법에서 발생하는 동적 요소의 부재 (정지된 듯한 영상) 를 극복했습니다.
Ablation Study:
- 분리된 듀얼 헤드 구조, 슬라이딩 윈도우 DMD, 그리고 실제 긴 영상 SFT 중 어느 하나라도 제거될 경우 성능이 크게 저하됨을 확인하여, 세 요소가 모두 필수적임을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 **"Mode Seeking meets Mean Seeking"**이라는 개념을 통해, 데이터가 부족한 환경에서도 고품질의 장시간 비디오 생성을 가능하게 하는 새로운 패러다임을 제시합니다.

효율성: 긴 영상 데이터의 부족을 극복하기 위해 풍부한 짧은 영상 데이터의 '지식'을 국소적 리얼리즘으로 활용하고, 부족한 긴 영상 데이터는 오직 '서사 구조' 학습에만 집중하게 함으로써 자원 효율성을 극대화했습니다.
속도: 복잡한 다단계 학습이나 증류 과정 없이, 추론 시 몇 단계만으로 고품질 장시간 영상을 생성할 수 있어 실용성이 높습니다.
미래 전망: 이 접근법은 생성형 AI 가 단순한 짧은 클립을 넘어, 인터랙티브 월드 모델링, 장편 영화 생성, 애니메이션 등 복잡한 장기적 작업을 수행하는 데 중요한 기반이 될 것으로 기대됩니다.

요약하자면, 이 연구는 **짧은 영상의 고화질 특성 (Mode Seeking)**과 **긴 영상의 서사 구조 (Mean Seeking)**를 분리된 아키텍처를 통해 효과적으로 결합함으로써, 빠르고 고품질의 장시간 비디오 생성을 실현했습니다.

Mode Seeking meets Mean Seeking for Fast Long Video Generation