S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

이 논문은 모바일 기기에서 실시간으로 고품질 비디오를 생성할 수 있도록 효율적인 어텐션 메커니즘과 샌드위치 구조, 그리고 2-in-1 증류 프레임워크를 도입한 'S2DiT'를 제안하여 서버급 성능을 iPhone 에서 초당 10 프레임 이상으로 구현한 연구입니다.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"스낵 (S2DiT)"**이라는 새로운 기술을 소개합니다. 이 기술은 스마트폰 같은 작은 기기에서도 고화질 영상을 실시간으로 만들어낼 수 있게 해줍니다.

기존의 AI 영상 생성 기술은 거대한 서버 (컴퓨터) 가 필요했고, 영상을 만드는 데 시간이 오래 걸려서 "실시간"으로 보기가 어려웠습니다. 하지만 이 연구팀은 **"샌드위치"**와 **"지식 전수"**라는 두 가지 아이디어를 섞어, 스마트폰에서도 1 초에 10 장 이상의 영상을 부드럽게 만들어내는 기술을 개발했습니다.

이해하기 쉽게 세 가지 핵심 아이디어로 나누어 설명해 드릴게요.


1. "샌드위치" 구조: 효율적인 작업 분담

기존의 AI 모델은 영상을 만들 때 모든 장면을 한 번에 다 보고 계산합니다. 마치 거대한 도서관에서 책 한 권을 찾으려면 모든 책장을 다 뒤져야 하는 것처럼 무겁고 느립니다.

S2DiT 는 이를 '샌드위치'처럼 바꿨습니다.

  • 위와 아래 (고화질 빵): 영상에서 중요한 디테일 (얼굴 표정, 옷의 주름 등) 을 잘 보여주기 위해 고해상도로 꼼꼼하게 봅니다.
  • 속 (효율적인 소스): 전체적인 흐름 (사람이 어디로 이동하는지, 배경이 어떻게 변하는지) 을 빠르게 파악하기 위해 저해상도로 넓게 봅니다.

이 두 가지 방식을 번갈아 가며 섞어놓은 것이 **'샌드위치 아키텍처'**입니다.

  • 비유: 요리사가 요리를 할 때, 고기 (중요한 부분) 는 칼로 정교하게 썰고 (고해상도), 채소 (배경) 는 큼직큼직하게 썰어서 (저해상도) 함께 볶는 것과 같습니다. 이렇게 하면 맛 (화질) 은 그대로 유지하면서 요리 시간 (계산 속도) 은 획기적으로 줄일 수 있습니다.

2. "지식 전수" (Distillation): 거장에게서 배우기

이 기술의 또 다른 핵심은 **'선배에게 배우는 것'**입니다.

  • 선배 (Teacher): '완 (Wan)'이라는 거대 AI 모델은 화질은 최고지만, 스마트폰에서 돌리면 너무 느리고 무겁습니다.
  • 후배 (Student): 우리가 만든 S2DiT 는 작고 빠르지만, 처음엔 화질이 떨어집니다.

연구팀은 이 두 모델을 연결하는 '2-in-1 지식 전수' 방식을 썼습니다.

  • 비유: 거장 요리사 (선배) 가 만든 요리를 직접 따라 하며 배우는 대신, 거장 요리사가 **"이 요리의 비법 레시피와 맛의 기준"**을 미리 적어둔 노트 (캐시된 데이터) 를 학생 (후배) 에게 줍니다. 학생은 이 노트를 보고 연습하면, 거장처럼 맛있는 요리를 만들 수 있지만, 거장처럼 많은 재료를 쓰거나 오랜 시간이 걸리지 않습니다.
  • 이 과정을 통해 S2DiT 는 거대 서버 모델 못지않은 화질을 유지하면서도 스마트폰에서 빠르게 작동할 수 있게 되었습니다.

3. 실시간 스트리밍: 끊김 없는 영상

기존 모델은 영상을 다 만들고 나서 보여주는 방식이라 기다려야 했지만, S2DiT 는 실시간 스트리밍이 가능합니다.

  • 비유: 영화관을 가서 영화가 끝날 때까지 기다리는 게 아니라, 방송을 실시간으로 켜고 보는 것과 같습니다.
  • AI 가 "지금 이 장면"을 그리는 동시에 "다음 장면"을 준비합니다. 스마트폰에서 1 초에 10 장 이상의 영상을 만들어내므로, 사용자가 명령을 내리면 바로바로 반응하는 인터랙티브한 경험을 제공합니다.

🌟 요약: 왜 이것이 중요한가요?

이 논문은 **"고화질 영상 생성은 이제 거대한 서버의 전유물이 아니다"**라고 선언합니다.

  • 이전: "고화질 영상을 만들고 싶다면 무거운 컴퓨터를 사서 몇 분씩 기다려야 해."
  • 이제 (S2DiT): "손안의 스마트폰으로, 거대 서버와 비슷한 화질의 영상을 실시간으로 만들어낼 수 있어!"

이 기술은 앞으로 스마트폰에서 실시간으로 나만의 애니메이션을 만들거나, 대화하듯 영상을 생성하는 등 새로운 형태의 모바일 엔터테인먼트를 가능하게 할 것입니다. 마치 주머니 속의 마법사처럼, 언제 어디서나 고퀄리티 영상을 만들어내는 시대가 온 것입니다.