Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지를 동영상으로 바꾸는 AI 가 왜 움직임을 잘 못 만드는지, 그리고 어떻게 그 문제를 해결했는지"**에 대한 연구입니다.

한마디로 요약하면: "AI 가 그림을 보고 영상을 만들 때, 너무 원본 그림에 집착해서 움직임을 멈추게 되는데, 우리는 '초반에는 흐릿하게, 후반에는 선명하게' 보는 방식을 도입해 움직임을 살렸습니다."

이제 좀 더 쉽고 재미있게 설명해 드릴게요.

1. 문제: AI 가 "고정된 사진"만 만들어내는 이유

최근 AI 는 글자를 입력하면 멋진 동영상을 만들어내기도 합니다 (Text-to-Video). 그런데, 특정 사진을 주고 "이걸 움직여줘"라고 하면 (Image-to-Video), AI 는 그 사진을 너무 잘 따라 하려고 합니다.

상황: AI 가 사진을 보고 영상을 만들 때, 사진 속의 아주 작은 세부 사항 (나뭇잎의 결, 눈썹의 모양 등) 을 처음부터 너무 선명하게 파악해버립니다.
결과: AI 는 "아, 이걸 그대로 유지해야겠다"라고 생각해서, 동영상 전체가 거의 움직이지 않는 정지 화면처럼 되어버립니다.
비유: 마치 무언가를 그릴 때, 처음부터 펜을 너무 세게 눌러서 종이에 구멍이 나게 그린 뒤, 그 구멍을 기준으로 그림을 완성하는 것과 같습니다. 이미지가 너무 고정되어 있어서, 그다음에 어떤 큰 움직임 (예: 사람이 뛰거나, 차가 달리는 것) 을 추가할 공간이 없어지는 거죠.

2. 해결책: "적응형 저주파 가이드 (ALG)"라는 새로운 방법

연구팀은 이 문제를 해결하기 위해 **"적응형 저주파 가이드 (ALG)"**라는 방법을 개발했습니다. 이름은 어렵지만 원리는 매우 간단하고 직관적입니다.

🎨 비유: "먼저 스케치하고, 나중에 디테일을 채우기"

이 방법은 동영상을 만드는 과정을 두 단계로 나눕니다.

초반 (흐릿하게 보기):
- AI 가 그림을 그리기 시작할 때, 원본 사진을 흐릿하게 (저주파 필터 적용) 보여줍니다.
- 마치 연필로 대충 스케치할 때처럼 세부적인 줄무늬나 질감은 무시하고, 전체적인 구도와 큰 움직임만 파악하게 합니다.
- 효과: AI 는 "아, 여기는 사람이 뛰는구나, 저기는 차가 가는구나"라고 **큰 움직임 (동적 요소)**을 자유롭게 상상할 수 있게 됩니다.
후반 (선명하게 보기):
- 큰 움직임이 자리 잡은 후에는, 다시 원본 사진의 선명한 디테일을 보여줍니다.
- 효과: 이제 AI 는 "오케이, 큰 움직임은 잡았으니, 이제 눈썹이나 옷 주름 같은 고퀄리티 디테일을 채워넣자"라고 생각해서, 원본 사진과 똑같이 예쁜 영상을 완성합니다.

3. 왜 이 방법이 좋은가요?

기존에 단순히 사진을 흐릿하게만 처리하면, 영상은 움직이기는 하지만 화질이 너무 나빠져서 못 쓰게 됩니다. (비유: 흐릿한 사진으로 만든 영화)

하지만 이 연구팀의 방법 (ALG) 은 시간에 따라 흐릿함과 선명함을 조절합니다.

움직임: 원본보다 훨씬 생동감 있고 역동적입니다. (실험 결과, 움직임 지표가 평균 33% 향상됨)
화질: 마지막에 선명한 디테일을 다시 주입했기 때문에, 원본 사진의 질감을 완벽하게 유지합니다.

4. 결론: "적당히 흐릿하게 시작하는 것이 더 잘된다"

이 논문은 AI 가 이미지를 보고 동영상을 만들 때, 처음부터 모든 디테일을 다 알면 오히려 움직임을 못 만든다는 사실을 발견했습니다.

마치 무용수가 춤을 추기 전에, 처음에는 옷을 헐렁하게 입고 큰 동작을 익히고, 나중에 의상을 갖춰 입고 정교한 동작을 완성하는 것과 같습니다.

이 간단한 아이디어 (적응형 저주파 가이드) 를 적용하면, 별도의 복잡한 학습 없이도 기존 AI 모델들의 움직임을 획기적으로 개선할 수 있다는 것이 이 연구의 핵심입니다.

한 줄 요약:

"AI 가 사진을 보고 영상을 만들 때, 처음엔 흐릿하게 보게 해서 큰 움직임을 자유롭게 하고, 나중엔 선명하게 보게 해서 화질을 챙기는 똑똑한 방법을 찾아냈습니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 최근 텍스트 - 비디오 (T2V) 생성 모델은 고품질의 동적인 비디오를 생성하는 능력을 입증했습니다. 이를 기반으로 참조 이미지를 입력으로 받아 비디오를 생성하는 이미지 - 비디오 (I2V) 모델들이 등장했으나, 대부분 사전 학습된 T2V 모델을 미세 조정 (Fine-tuning) 하여 구축됩니다.
핵심 문제: 미세 조정된 I2V 모델들은 T2V 모델에 비해 동적인 움직임 (Motion Dynamics) 이 현저히 억제된 정적인 비디오를 생성하는 경향이 있습니다.
원인 분석:
- 연구진은 이 현상의 원인이 입력 이미지의 고주파수 (High-frequency) 세부 정보에 있다고 규명했습니다.
- I2V 모델은 생성 과정의 초기 단계에서 입력 이미지의 미세한 디테일 (고주파수 성분) 에 과도하게 노출되면서, 생성 궤적이 "단축기 (Shortcut)" 경로로 일찍 고정되는 현상이 발생합니다.
- 이로 인해 모델은 거시적인 움직임 (Coarse motion) 이 형성되기 전에 이미 정적인 외관에 맞춰져 버려, 결과적으로 움직임이 제한된 비디오가 생성됩니다.

2. 제안 방법: 적응형 저역 통과 가이드 (Adaptive Low-Pass Guidance, ALG)

이 문제를 해결하기 위해 저자들은 ALG라는 훈련이 필요 없는 (Training-free) 추론 기법을 제안했습니다.

핵심 아이디어: 생성 과정의 초기 단계에서는 입력 이미지의 고주파수 성분을 제거하여 움직임의 유연성을 확보하고, 후기 단계에서는 원본 이미지의 고주파수 정보를 다시 도입하여 화질을 복원하는 적응형 전략을 사용합니다.
작동 원리:
1. 저역 통과 필터링 (Low-Pass Filtering): 입력 조건 이미지 (Conditioning Image) 에 저역 통과 필터 (예: 다운샘플링 후 업샘플링, 가우시안 블러 등) 를 적용하여 고주파수 세부 정보를 제거합니다.
2. 적응형 스케줄링 (Adaptive Modulation):
  - 초기 단계 ( $t \approx 0$ ): 필터 강도 ( $\kappa$ ) 를 높게 설정하여 필터링된 이미지 (저주파수만 포함) 를 모델에 조건으로 제공합니다. 이는 모델이 세부 사항에 일찍 고정되는 것을 방지하고 움직임이 자연스럽게 발달하도록 유도합니다.
  - 후기 단계 ( $t \approx 1$ ): 필터 강도를 0 으로 줄여 원본 필터링되지 않은 이미지를 조건으로 제공합니다. 이를 통해 초기에 생성된 동적인 구조 위에 고주파수 세부 정보를 정교하게 복원합니다.
3. 수식적 구현 (Classifier-Free Guidance 적용):
  - ALG 는 기존 CFG 공식에 변형을 가합니다. 무조건적 예측 (Unconditional prediction) 은 원본 이미지를 사용하고, 조건부 예측 (Conditional prediction) 에만 적응형으로 필터링된 이미지를 적용합니다.
  - 이를 통해 모션 향상 (Motion Enhancement) 과 화질 복원 (Fidelity Correction) 을 동시에 달성합니다.
  - 수식: $v_{ALG} = v_{\theta}(x, x_{init}, \emptyset) + w \cdot (v_{\theta}(x, x^{(t)}_{init}, c) - v_{\theta}(x, x^{(t)}_{init}, \emptyset))$
  - 여기서 $x^{(t)}_{init}$ 는 시간 $t$ 에 따라 필터 강도가 변하는 필터링된 이미지입니다.

3. 주요 기여 (Key Contributions)

현상 규명 및 가설 검증: I2V 모델에서 움직임이 억제되는 원인이 입력 이미지의 고주파수 성분에 의한 '단축기 (Shortcut)' 현상임을 분석하고, 이를 저역 통과 필터링으로 완화할 수 있음을 실험적으로 증명했습니다.
ALG 제안: 추가적인 모델 학습 없이, 추론 단계에서 적용 가능한 간단하면서도 효과적인 방법론을 제시했습니다.
성능 입증: 다양한 오픈소스 I2V 모델 (Wan 2.1, Wan 2.2, LTX-Video) 에서 적용 시, 이미지 화질과 텍스트 정렬성을 유지하거나 오히려 향상시키면서 동적 정도 (Dynamic Degree) 를 획기적으로 개선했습니다.

4. 실험 결과 (Results)

평가 데이터셋: VBench, PVD (PE Video Dataset), VidProM 등 다양한 벤치마크를 사용했습니다.
주요 성과:
- 동적 정도 (Dynamic Degree): VBench 테스트 스위트에서 다양한 모델에 적용 시 평균 33% 향상을 기록했습니다. (예: Wan 2.2 의 경우 31.7 → 39.0)
- 화질 유지: 동적 정도가 크게 향상되었음에도 불구하고, Aesthetic Quality, Imaging Quality, Subject Consistency 등 화질 관련 지표는 기존 방법 (CFG) 과 유사하거나 오히려 개선되었습니다.
- 비교 실험: 단순히 입력 이미지를 처음부터 저역 통과 필터링하는 방식은 화질이 떨어지는 단점이 있었으나, ALG 는 초기 단계만 필터링하여 이 트레이드오프를 해결했습니다.
- 시각적 결과: 객체의 이동, 동물/인간의 행동, 배경의 복잡한 움직임 등에서 훨씬 더 역동적이고 자연스러운 비디오를 생성함을 시각적으로 확인했습니다.

5. 의의 및 결론 (Significance)

기술적 의의: I2V 모델의 핵심적인 한계인 '정적인 생성' 문제를 해결하기 위해, 생성 과정의 시간적 단계에 따른 주파수 성분의 제어가 얼마나 중요한지를 보여주었습니다.
실용성: 별도의 학습 비용 없이 기존 오픈소스 모델에 바로 적용 가능하여, 연구자와 개발자들이 즉시 고품질의 동적인 비디오를 생성할 수 있게 합니다.
미래 전망: 이 연구는 이미지 기반 비디오 생성의 제어 가능성 (Controllability) 을 높이는 중요한 디딤돌이 되며, 향후 더 복잡한 모션 제어 및 비디오 생성 연구의 기초를 제공합니다.

요약하자면, 이 논문은 I2V 모델이 입력 이미지의 세부 사항에 과도하게 반응하여 움직임을 잃는 문제를 발견하고, 이를 해결하기 위해 생성 초기 단계에만 필터링을 적용하는 '적응형 저역 통과 가이드 (ALG)'를 제안하여, 화질 손실 없이 동적인 비디오 생성 성능을 획기적으로 개선했습니다.

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

1. 문제: AI 가 "고정된 사진"만 만들어내는 이유

2. 해결책: "적응형 저주파 가이드 (ALG)"라는 새로운 방법

🎨 비유: "먼저 스케치하고, 나중에 디테일을 채우기"

3. 왜 이 방법이 좋은가요?

4. 결론: "적당히 흐릿하게 시작하는 것이 더 잘된다"

1. 문제 정의 (Problem Statement)

2. 제안 방법: 적응형 저역 통과 가이드 (Adaptive Low-Pass Guidance, ALG)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation