ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

이 논문은 텍스트 기반 영상 생성의 카메라 제어 한계를 극복하기 위해, 비전 - 언어 모델 기반의 플래너와 컨트롤러를 결합한 'ShotVerse' 프레임워크와 정교한 데이터셋을 제안하여 텍스트 설명을 기반으로 정밀하고 일관된 다중 샷 영화적 영상을 자동 생성하는 새로운 패러다임을 제시합니다.

Songlin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 샷버스 (ShotVerse): AI 영화감독을 위한 '스마트 대본'과 '정밀 카메라'

이 논문은 **"AI 가 텍스트만 보고 멋진 영화 장면을 만들어내게 하되, 카메라가 어떻게 움직여야 할지 정확히 지시하는 방법"**을 제시합니다.

기존의 AI 영상 생성 기술은 "한 장면을 만들어줘"라고 하면 잘 만들지만, "이제 카메라가 왼쪽으로 돌아가면서 주인공을 따라가다가, 갑자기 클로즈업으로 전환해줘"처럼 **복잡한 영화 같은 카메라 워크 (Camera Work)**를 지시하면 엉망이 되거나 아예 실패했습니다.

이 문제를 해결하기 위해 연구진들은 **'샷버스 (ShotVerse)'**라는 새로운 시스템을 개발했습니다. 이를 쉽게 이해할 수 있도록 영화 촬영 현장에 비유해 설명해 드리겠습니다.


1. 문제: "대본만 주면 카메라맨은 당황한다"

지금까지의 AI 는 "소나무가 흔들리는 숲"이라는 대본만 주면, 숲을 만들어내지만 카메라가 어떻게 움직일지는 임의로 정했습니다.

  • 기존 방식: "카메라가 움직여"라고 대본에 적으면 AI 는 "어떻게 움직여야 하지? 그냥 랜덤하게 움직일까?"라고 고민하다가 엉뚱하게 움직이거나, 여러 장면 (샷) 이 이어질 때 공간감이 깨져버립니다.
  • 수동 방식: 전문가가 직접 3D 공간에서 카메라가 움직일 궤적을 하나하나 그려주면 정확하지만, 이는 너무 힘들고 시간이 많이 걸려서 일반인이 쓰기 어렵습니다.

2. 해결책: 샷버스 (ShotVerse) 의 '두 명의 천재'

샷버스는 영화를 만드는 과정을 두 명의 전문가로 나누어 협업하게 합니다.

🧠 1 인: '기획자 (Planner)' - VLM 기반의 지휘관

  • 역할: 사용자가 쓴 대본 (예: "주인공이 걸어가는 모습을 따라가며 뒤로 물러나") 을 보고, **정밀한 카메라 이동 경로 (궤적)**를 자동으로 설계합니다.
  • 비유: 마치 영화 감독이 대본을 보고 "이 장면은 드론으로 위에서 찍고, 다음 장면은 주인공 어깨 너머로 찍자"라고 구체적인 촬영 지시서를 작성하는 역할입니다.
  • 특징: 이 '기획자'는 거대한 AI(시각 - 언어 모델) 를 학습시켜, "어떤 대본이면 어떤 카메라 움직임이 영화적으로 가장 멋질지"를 스스로 배웠습니다.

🎥 2 인: '촬영가 (Controller)' - 정밀 카메라 조작수

  • 역할: '기획자'가 그려준 정밀한 이동 경로 지도를 받아서, 실제로 영상을 만들어냅니다.
  • 비유: 카메라맨이 감독의 지시서대로 카메라를 움직이며 장면을 촬영하는 역할입니다.
  • 특징: 이 '촬영가'는 지도 (궤적) 를 따라 움직이는 동안, 영상의 질을 떨어뜨리지 않고 자연스러운 움직임을 구현하도록 훈련되었습니다.

3. 핵심 기술: "하나의 거대한 무대" (데이터의 정렬)

이 시스템이 성공한 가장 큰 비결은 데이터에 있습니다.

  • 문제: 기존 영화 데이터는 장면마다 카메라 위치가 따로따로 기록되어 있어, AI 가 "이 장면에서 저 장면으로 넘어갈 때 공간이 어떻게 연결되는지"를 이해하지 못했습니다.
  • 해결 (샷버스 벤치): 연구진은 고화질 영화 데이터를 수집하여, 모든 장면의 카메라 위치를 하나의 거대한 3D 공간 (전체 무대) 에 맞춰 정렬했습니다.
    • 비유: 마치 여러 장의 사진으로 된 만화책을, 실제 3D 공간에 배치된 인형극처럼 재구성한 것입니다. 이제 AI 는 "장면 1 에서 카메라가 오른쪽으로 갔다면, 장면 2 에서는 그 공간이 어디에 있는지 정확히 알고 있다"는 것을 배웠습니다.

4. 왜 이것이 혁신적인가? (세 가지 장점)

  1. 자동화된 '영화적' 기획:
    사용자가 "카메라가 천천히 줌인하며 오른쪽으로 회전해"라고 말하면, AI 가 이를 수동으로 그릴 필요 없이 자동으로 정밀한 3D 경로로 변환해 줍니다.
  2. 끊임없는 공간감 (Cross-shot Consistency):
    장면이 바뀌어도 (컷이 넘어가도) 배경이나 공간이 뚝 끊기지 않고 자연스럽게 이어집니다. 마치 하나의 긴 영화처럼 보입니다.
  3. 전문가 수준의 결과:
    기존 AI 들이 "카메라가 흔들리거나, 주제가 사라지거나, 공간이 비현실적으로 변하는" 실수를 하지 않고, 진짜 영화처럼 촬영된 듯한 영상을 만들어냅니다.

5. 결론: AI 가 영화감독이 되는 날

**샷버스 (ShotVerse)**는 단순히 영상을 만들어주는 것을 넘어, AI 에게 '영화의 언어 (카메라 워크)'를 가르친 첫 번째 시도입니다.

  • 과거: "멋진 영상을 만들어줘" → AI 가 임의로 찍음.
  • 현재 (샷버스): "이 대본대로, 이 카메라 움직임으로 영화를 찍어줘" → AI 가 기획자가 경로를 설계하고 촬영가가 정밀하게 실행하여, 실제 영화감독이 찍은 듯한 고퀄리티 영상을 만들어냅니다.

이 기술은 앞으로 누구나 손쉽게 전문적인 수준의 영화나 드라마를 제작할 수 있는 시대를 열 것이라고 기대됩니다.