Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

이 논문은 전역 시간 인덱스를 활용한 순차-병렬 3D 위치 인코딩 (Causal-RoPE SP) 과 연산 융합 기법을 도입하여 Diffusion Transformer 기반 비디오 생성 모델의 메모리 병목과 지연 시간을 해결하고, 480P 5 초 영상 생성 시 1.58 배의 속도 향상과 실시간 추론을 가능하게 합니다.

Chao Yuan, Pan Li

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 만들 때 AI 가 너무 느리고 메모리를 많이 잡아먹는 문제를 해결한 새로운 방법"**에 대해 설명합니다.

비유를 들어 쉽게 설명해 드릴게요.

🎬 배경: 왜 영상 생성 AI 는 느릴까요?

지금까지의 AI 영상 생성 모델 (예: Wan2.1) 은 **"한 번에 모든 장면을 다 보고 정답을 맞춘다"**는 방식 (전체 시공간 주의) 을 썼습니다.

  • 문제점 1 (메모리 폭탄): 영상의 길이가 2 배가 되면, AI 가 기억해야 할 정보량이 4 배가 됩니다. (O(N²) 복잡도) 마치 10 분짜리 영화를 만들려고 하는데, 책상 위에 100 권의 책을 펼쳐놓고 다 읽어야 하는 꼴입니다.
  • 문제점 2 (기다림): "앞장면을 다 만들어야 뒷장면을 그릴 수 있다"는 규칙을 따르지만, 동시에 "앞장면과 뒷장면을 모두 봐야만" 정확한 그림을 그릴 수 있게 설계되어 있어, 첫 장면을 보여주기까지 수십 초를 기다려야 했습니다.

🚀 해결책: "순차 - 병렬 3D 위치 인코딩"이란 무엇일까요?

저자들은 이 문제를 해결하기 위해 세 가지 핵심 전략을 섞어서 새로운 시스템을 만들었습니다.

1. "조각조각 나누어 작업하기" (Sequence Parallelism)

  • 비유: 100 페이지짜리 긴 책을 한 사람이 다 읽으려니 지치죠? 대신 8 명의 친구에게 책을 8 쪽씩 나누어 주고, 각자 맡은 부분만 읽게 합니다.
  • 효과: 한 컴퓨터 (GPU) 가 기억해야 할 메모리 양이 줄어듭니다. 그래서 긴 영상도 만들 수 있게 됩니다.

2. "내 자리에서 위치 파악하기" (Causal-RoPE SP) - 이게 이 논문의 핵심!

  • 기존 방식: 8 명이 책을 읽을 때, "내가 지금 몇 페이지를 읽고 있니?"라고 물어보려면 8 명 모두에게 전화를 걸어 "누가 몇 페이지를 읽었는지" 모두 합쳐서 계산해야 했습니다. (이게 통신 비용이 많이 들고 느립니다.)
  • 새로운 방식 (Causal-RoPE SP):
    • 각 친구에게 **"너는 0 페이지부터 시작해"**라고 미리 알려줍니다 (Global Time Index).
    • 이제 각 친구는 자신의 위치만 계산하면 됩니다. "나는 3 쪽을 읽고 있으니, 전체적으로는 3 페이지구나!"라고 스스로 계산합니다.
    • 효과: 서로 전화를 걸고 기다릴 필요가 없어져서, 작업 속도가 훨씬 빨라집니다.

3. "준비된 재료로 요리하기" (Pipeline Optimization)

  • 비유: 요리할 때 재료를 다듬는 도구를 매번 꺼내서 닦고, 재료를 썰고, 그릇에 담는 과정을 따로따로 하면 시간이 걸립니다.
  • 새로운 방식:
    • 도구 통합: "자르기도 하고, 다듬기도 하고, 접시에도 담는" 작업을 하나의 도구로 합칩니다.
    • 미리 준비: 자주 쓰는 양념 (위치 정보) 을 미리 준비해 둡니다.
    • 효과: 요리사 (컴퓨터) 가 재료를 기다리는 시간이 사라져서, 요리가 훨씬 빨리 나옵니다.

📊 결과: 얼마나 빨라졌나요?

이 기술을 8 개의 고성능 그래픽카드 (NVIDIA A800) 로 테스트한 결과는 다음과 같습니다.

  • 속도: 5 초짜리 480P 영상을 만드는 시간이 약 1.58 배 빨라졌습니다. (기존 8.8 초 → 5.4 초)
  • 첫 화면: 영상을 시작할 때 첫 장면을 보여주는 데 걸리는 시간이 1 초 미만으로 줄었습니다. (이전에는 수십 초 걸림)
  • 품질: 속도가 빨라졌지만, 만들어지는 영상의 화질이나 자연스러움은 변함없이 훌륭합니다.

💡 요약

이 논문은 **"긴 영상을 만들 때 AI 가 서로 대화하며 시간을 낭비하지 않도록, 각자 맡은 부분에서 스스로 위치를 파악하게 하고, 불필요한 작업을 하나로 합쳐서 속도를 1.5 배 이상 끌어올렸다"**는 이야기입니다.

이 기술 덕분에 앞으로 실시간으로 대화하듯 영상을 만들거나, 아주 긴 영화를 AI 가 순식간에 만들어내는 시대가 더 가까워졌습니다.