StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

이 논문은 실시간 스트리밍의 엄격한 지연 시간 요구사항을 충족하면서도 비디오 확산 모델의 시간적 일관성을 개선하기 위해, 학습 없이 작동하는 SLO 인지 배치 스케줄러와 병렬 파이프라인 오케스트레이션 등을 통합한 'StreamDiffusionV2' 시스템을 제안합니다.

Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 StreamDiffusionV2: 실시간 비디오 생성의 '고속도로'를 열다

이 논문은 생성형 AI가 실시간으로 영상을 만들어내는 기술을 혁신한 **'StreamDiffusionV2'**라는 시스템을 소개합니다.

기존의 기술이 가진 문제점과 이 시스템이 어떻게 해결책을 제시했는지, 마치 요리사고속도로에 비유해서 쉽게 설명해 드릴게요.


1. 기존 기술의 문제점: "완성된 요리를 기다리는 시간"

과거의 AI 영상 생성 기술 (이미지 기반) 은 한 장씩 그림을 그리는 방식이었습니다.

  • 비유: 마치 요리사가 한 접시씩 요리해서 내는 것처럼요.
  • 문제: 한 접시 (프레임) 를 그릴 때마다 이전 접시와 연결고리가 끊어지거나 흔들려서, 영상이 깜빡거리거나 (Flicker) 움직임이 부자연스러웠습니다. 마치 춤추는 사람이 발을 헛디디는 것처럼요.

또한, 최신의 '비디오 생성 AI'는 여러 장을 한 번에 만들어서 연결이 잘 되지만, 한 번에 100 접시 (프레임) 를 미리 다 만들어야만 내어주는 방식이었습니다.

  • 문제: 손님이 "지금 당장 한 접시 주세요!"라고 요청해도, 요리사가 100 접시를 다 요리할 때까지 기다려야 하므로 첫 접시가 나오는 시간 (지연 시간) 이 너무 길었습니다. 실시간 방송에는 전혀 적합하지 않죠.

2. StreamDiffusionV2 의 등장: "실시간으로 뚝딱뚝딱 만드는 주방"

이 시스템은 **실시간 방송 (Live Streaming)**에 딱 맞게 설계되었습니다. 목표는 "첫 번째 요리는 0.5 초 안에, 그 뒤로는 매 초마다 끊김 없이" 내어주는 것입니다.

핵심 기술 3 가지 (마법 같은 주방 도구들)

① SLO 인지 배차 시스템 (현명한 주방장)

  • 상황: 손님이 너무 많이 오면 (부하), 요리사가 다들 바빠서 요리가 느려집니다.
  • 해결: 이 시스템은 지금 주방이 얼마나 바쁜지 실시간으로 감지합니다.
    • 바쁠 때는 한 번에 요리하는 접시 수를 줄여서 첫 접시 (첫 프레임) 가 빨리 나오게 합니다.
    • 여유가 있을 때는 한 번에 더 많이 만들어 전체 속도를 높입니다.
    • 효과: 손님이 기다리는 시간이 최소화되고, 요리사 (GPU) 는 게으름 없이 일합니다.

② 움직임 감지 노이즈 조절기 (감각적인 소스 장인)

  • 상황: 요리할 때 재료가 빠르게 움직이면 (예: 격렬한 춤), 너무 많이 섞으면 모양이 망가집니다. 반면 고요할 때는 (예: 풍경), 더 정성들여 다듬어야 맛있습니다.
  • 해결: 이 시스템은 영상의 움직임 속도를 실시간으로 분석합니다.
    • 빠른 움직임: 너무 세게 다듬지 않고 (노이즈를 줄여서) 흐릿해지거나 찢어지는 것을 막습니다.
    • 느린 움직임: 더 정교하게 다듬어 (노이즈를 많이 주어) 디테일을 살립니다.
    • 효과: 격렬한 액션 장면에서도 영상이 흐트러지지 않고 선명하게 유지됩니다.

③ 파이프라인 오케스트레이션 (여러 주방장의 협업)

  • 상황: 요리사가 한 명일 때는 한 번에 한 접시만 만들 수 있습니다.
  • 해결: **여러 명의 주방장 (GPU)**을 배치하고, 각자 다른 역할을 맡게 합니다.
    • A 는 반죽을 하고, B 는 굽고, C 는 장식을 합니다.
    • 중요한 건, 한 접시가 완성될 때마다 바로 내어주되, 다음 접시를 만드는 과정은 동시에 진행한다는 점입니다.
    • 효과: 컴퓨터 여러 대를 써도 속도가 선형적으로 빨라져서, 거대한 서버에서도 초당 60 장 이상의 영상을 끊김 없이 만들어냅니다.

3. 이 시스템이 가져온 변화

이 기술은 TensorRT 나 양자화 (압축 기술) 같은 복잡한 장비를 쓰지 않아도 됩니다. 그냥 네트워크와 알고리즘을 똑똑하게 조율한 것뿐입니다.

  • 속도: 4 개의 최신 GPU (H100) 를 사용하면, 140 억 개의 파라미터를 가진 거대한 모델로도 초당 58 장의 영상을 만들어냅니다. (작은 모델은 64 장!)
  • 품질: 첫 장이 나오는 시간이 0.5 초밖에 걸리지 않습니다. (기존 기술은 몇 초~수십 초 걸림)
  • 안정성: 1 시간 이상 방송을 해도 영상이 흐트러지거나 (Drift) 스타일이 변하지 않습니다.

4. 결론: 왜 이것이 중요한가요?

이전까지는 AI 가 만드는 영상이 **미리 만들어둔 영상 (오프라인)**에만 적합했습니다. 하지만 StreamDiffusionV2는 이제 실시간 방송, 게임, 가상 휴먼즉각적인 상호작용이 필요한 모든 곳에 AI 영상을 적용할 수 있게 만들었습니다.

한 줄 요약:

"이 시스템은 AI 영상 생성을 **'미리 만들어둔 영화'**에서 **'실시간으로 즉흥적으로 만드는 라이브 공연'**으로 바꾼, 역사적인 기술 혁신입니다."

이제 개인 크리에이터부터 대기업까지, 누구나 끊김 없는 AI 실시간 영상을 쉽게 만들 수 있는 시대가 열린 것입니다. 🚀

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →