Each language version is independently generated for its own context, not a direct translation.

🎬 샷버스 (ShotVerse): AI 영화감독을 위한 '스마트 대본'과 '정밀 카메라'

이 논문은 **"AI 가 텍스트만 보고 멋진 영화 장면을 만들어내게 하되, 카메라가 어떻게 움직여야 할지 정확히 지시하는 방법"**을 제시합니다.

기존의 AI 영상 생성 기술은 "한 장면을 만들어줘"라고 하면 잘 만들지만, "이제 카메라가 왼쪽으로 돌아가면서 주인공을 따라가다가, 갑자기 클로즈업으로 전환해줘"처럼 **복잡한 영화 같은 카메라 워크 (Camera Work)**를 지시하면 엉망이 되거나 아예 실패했습니다.

이 문제를 해결하기 위해 연구진들은 **'샷버스 (ShotVerse)'**라는 새로운 시스템을 개발했습니다. 이를 쉽게 이해할 수 있도록 영화 촬영 현장에 비유해 설명해 드리겠습니다.

1. 문제: "대본만 주면 카메라맨은 당황한다"

지금까지의 AI 는 "소나무가 흔들리는 숲"이라는 대본만 주면, 숲을 만들어내지만 카메라가 어떻게 움직일지는 임의로 정했습니다.

기존 방식: "카메라가 움직여"라고 대본에 적으면 AI 는 "어떻게 움직여야 하지? 그냥 랜덤하게 움직일까?"라고 고민하다가 엉뚱하게 움직이거나, 여러 장면 (샷) 이 이어질 때 공간감이 깨져버립니다.
수동 방식: 전문가가 직접 3D 공간에서 카메라가 움직일 궤적을 하나하나 그려주면 정확하지만, 이는 너무 힘들고 시간이 많이 걸려서 일반인이 쓰기 어렵습니다.

2. 해결책: 샷버스 (ShotVerse) 의 '두 명의 천재'

샷버스는 영화를 만드는 과정을 두 명의 전문가로 나누어 협업하게 합니다.

🧠 1 인: '기획자 (Planner)' - VLM 기반의 지휘관

역할: 사용자가 쓴 대본 (예: "주인공이 걸어가는 모습을 따라가며 뒤로 물러나") 을 보고, **정밀한 카메라 이동 경로 (궤적)**를 자동으로 설계합니다.
비유: 마치 영화 감독이 대본을 보고 "이 장면은 드론으로 위에서 찍고, 다음 장면은 주인공 어깨 너머로 찍자"라고 구체적인 촬영 지시서를 작성하는 역할입니다.
특징: 이 '기획자'는 거대한 AI(시각 - 언어 모델) 를 학습시켜, "어떤 대본이면 어떤 카메라 움직임이 영화적으로 가장 멋질지"를 스스로 배웠습니다.

🎥 2 인: '촬영가 (Controller)' - 정밀 카메라 조작수

역할: '기획자'가 그려준 정밀한 이동 경로 지도를 받아서, 실제로 영상을 만들어냅니다.
비유: 카메라맨이 감독의 지시서대로 카메라를 움직이며 장면을 촬영하는 역할입니다.
특징: 이 '촬영가'는 지도 (궤적) 를 따라 움직이는 동안, 영상의 질을 떨어뜨리지 않고 자연스러운 움직임을 구현하도록 훈련되었습니다.

3. 핵심 기술: "하나의 거대한 무대" (데이터의 정렬)

이 시스템이 성공한 가장 큰 비결은 데이터에 있습니다.

문제: 기존 영화 데이터는 장면마다 카메라 위치가 따로따로 기록되어 있어, AI 가 "이 장면에서 저 장면으로 넘어갈 때 공간이 어떻게 연결되는지"를 이해하지 못했습니다.
해결 (샷버스 벤치): 연구진은 고화질 영화 데이터를 수집하여, 모든 장면의 카메라 위치를 하나의 거대한 3D 공간 (전체 무대) 에 맞춰 정렬했습니다.
- 비유: 마치 여러 장의 사진으로 된 만화책을, 실제 3D 공간에 배치된 인형극처럼 재구성한 것입니다. 이제 AI 는 "장면 1 에서 카메라가 오른쪽으로 갔다면, 장면 2 에서는 그 공간이 어디에 있는지 정확히 알고 있다"는 것을 배웠습니다.

4. 왜 이것이 혁신적인가? (세 가지 장점)

자동화된 '영화적' 기획:
사용자가 "카메라가 천천히 줌인하며 오른쪽으로 회전해"라고 말하면, AI 가 이를 수동으로 그릴 필요 없이 자동으로 정밀한 3D 경로로 변환해 줍니다.
끊임없는 공간감 (Cross-shot Consistency):
장면이 바뀌어도 (컷이 넘어가도) 배경이나 공간이 뚝 끊기지 않고 자연스럽게 이어집니다. 마치 하나의 긴 영화처럼 보입니다.
전문가 수준의 결과:
기존 AI 들이 "카메라가 흔들리거나, 주제가 사라지거나, 공간이 비현실적으로 변하는" 실수를 하지 않고, 진짜 영화처럼 촬영된 듯한 영상을 만들어냅니다.

5. 결론: AI 가 영화감독이 되는 날

**샷버스 (ShotVerse)**는 단순히 영상을 만들어주는 것을 넘어, AI 에게 '영화의 언어 (카메라 워크)'를 가르친 첫 번째 시도입니다.

과거: "멋진 영상을 만들어줘" → AI 가 임의로 찍음.
현재 (샷버스): "이 대본대로, 이 카메라 움직임으로 영화를 찍어줘" → AI 가 기획자가 경로를 설계하고 촬영가가 정밀하게 실행하여, 실제 영화감독이 찍은 듯한 고퀄리티 영상을 만들어냅니다.

이 기술은 앞으로 누구나 손쉽게 전문적인 수준의 영화나 드라마를 제작할 수 있는 시대를 열 것이라고 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

ShotVerse: 텍스트 기반 멀티샷 비디오 생성을 위한 영화적 카메라 제어 고도화

1. 문제 정의 (Problem)

텍스트 기반 비디오 생성 모델은 영화 제작을 민주화했으나, '영화적 멀티샷 (Cinematic Multi-Shot)' 시나리오에서의 카메라 제어는 여전히 큰 병목 현상입니다.

기존 방법의 한계:
- 암시적 프롬프트의 부정확성: 자연어 프롬프트만으로는 "왼쪽으로 팬 (pan)"이나 "줌인"과 같은 구체적인 카메라 움직임을 정밀하게 제어하기 어렵습니다.
- 명시적 궤적의 실행 실패: 명시적인 카메라 궤적 (Trajectory) 을 조건으로 주더라도, 기존 모델은 이를 분포 밖 (Out-of-Distribution) 의 조건으로 간주하여 생성 실패를 초래하거나, 여러 샷 (Shot) 간의 통합된 글로벌 좌표계를 유지하지 못해 공간적 일관성이 깨집니다.
- 수동 작업의 부담: 영화적 궤적을 수동으로 설계하고 동기화하는 과정은 공간 추론과 미적 감각이 요구되는 고비용 작업입니다.

2. 방법론 (Methodology)

저자들은 데이터 중심의 패러다임 전환을 제안하며, **(캡션, 궤적, 비디오)**가 정렬된 삼중항 (Triplet) 을 형성한다는 가설 하에 "Plan-then-Control(계획 후 제어)" 프레임워크인 ShotVerse를 개발했습니다.

핵심 데이터 기반: ShotVerse-Bench
- 고생산성 영화/드라마에서 20,500 개의 클립을 수집했습니다.
- 자동 카메라 보정 파이프라인: 분리된 개별 샷의 궤적을 통합된 글로벌 좌표계에 정렬하는 4 단계 프로세스 (동적 전경 제거, 단일 샷 국소 재구성, 키프레임 글로벌 재구성, 앵커 기반 정렬) 를 도입했습니다.
- 계층적 캡션 (전체 스토리 + 샷별 설명) 과 정렬된 궤적 데이터를 제공합니다.
1 단계: 플래너 (Planner) - 영화적 궤적 계획
- 역할: 텍스트 프롬프트를 명시적이고 통합된 3D 카메라 궤적으로 변환합니다.
- 구조:
  - VLM 기반: Qwen3-VL 과 같은 대규모 비전 - 언어 모델 (VLM) 을 사용하여 텍스트의 공간적 사전 지식 (Spatial Priors) 을 활용합니다.
  - 계층적 프롬프트: 전체 스토리와 샷별 설명을 교차시키고, 학습 가능한 쿼리 토큰 (Query Tokens) 을 주입하여 샷별 카메라 계획을 분리합니다.
  - 디코더: VLM 의 은닉 상태를 받아 가변 길이의 궤적 토큰을 생성하고, 이를 연속적인 카메라 자세 (Pose) 로 디토큰화합니다.
- 학습: $P(\text{Trajectory} | \text{Caption})$ 를 최적화하여 수동 계획 부담을 제거합니다.
2 단계: 컨트롤러 (Controller) - 텍스트 기반 비디오 생성
- 역할: 플래너가 생성한 명시적 궤적과 텍스트 프롬프트를 기반으로 고품질 멀티샷 비디오를 합성합니다.
- 구조:
  - Holistic Backbone: HoloCine 과 같은 전체 시퀀스 기반 Diffusion Transformer(DiT) 를 베이스로 사용합니다.
  - Camera Encoder: 카메라 외관 행렬 (Extrinsic Matrix) 을 특징 벡터로 인코딩하여 비디오 토큰에 주입합니다. 이는 고잡음 (High-noise) 단계에서 주로 작동하여 거시적 운동 구조를 잡습니다.
  - 4D Rotary Positional Embedding (4D RoPE): 기존 3D (프레임, 높이, 너비) 에 샷 인덱스 (Shot Index) 차원을 추가합니다. 이를 통해 샷 간 경계를 명확히 하고 샷 내부의 일관성을 유지하며, 컷 (Cut) 시의 전환을 정밀하게 제어합니다.
- 학습: $P(\text{Video} | \text{Caption, Trajectory})$ 를 Flow Matching 방식으로 최적화합니다.

3. 주요 기여 (Key Contributions)

데이터 중심 패러다임: 정렬된 (캡션, 궤적, 비디오) 데이터의 중요성을 강조하고, 이를 위한 ShotVerse-Bench와 자동 보정 파이프라인을 최초로 구축했습니다.
Plan-then-Control 프레임워크: 복잡한 영화적 로직을 VLM 기반의 '계획'과 기하학적 인식을 가진 '제어'로 분리하여, 텍스트 기반 생성과 정밀한 기하학적 제어를 동시에 달성했습니다.
전체적 멀티샷 생성 최적화: 단일 샷 생성 모델이 아닌, 통합된 글로벌 좌표계 내에서 샷 간 일관성을 보장하는 Holistic Multi-Shot 생성 모델에 초점을 맞췄습니다.
3 트랙 평가 프로토콜: (A) 텍스트 - 궤적 계획, (B) 궤적 - 비디오 실행 정밀도, (C) 엔드 - 투 - 엔드 비디오 품질을 종합적으로 측정하는 새로운 벤치마크를 제시했습니다.

4. 실험 결과 (Results)

ShotVerse 는 오픈소스 및 상용 모델 (Sora2, VEO3, Kling3.0 등) 과 비교하여 모든 지표에서 우수한 성능을 보였습니다.

Track A (계획): 텍스트에서 궤적을 생성하는 능력에서 기존 방법 (GenDoP 등) 보다 F1-Score 와 CLaTr-CLIP 점수가 월등히 높았습니다.
Track B (제어): 주어진 궤적을 비디오로 실행할 때, 이동/회전 오차 (Transition/Rotation Error) 가 가장 낮았으며, 샷 간 좌표 정렬 점수 (CAS) 가 0.500 으로 가장 높았습니다.
Track C (생성):
- 시각적 품질: Aesthetic Quality(5.465) 와 Shot Transition Accuracy(0.933) 에서 최상위권을 기록했습니다.
- 영화적 완성도: VLM 기반 평가 및 사용자 연구에서 '주제 강조', '영화적 템포' 등 모든 차원에서 다른 모델들을 압도했습니다.
- 시각적 비교: 기존 모델들은 복잡한 궤적 (예: 오비트) 을 수행하지 못하거나 피사체에서 벗어났으나, ShotVerse 는 정밀한 카메라 움직임과 샷 간 일관성을 유지했습니다.

5. 의의 및 결론 (Significance)

ShotVerse 는 텍스트 기반 비디오 생성이 단순한 클립 합성을 넘어, 전문적인 영화 연출 (Cinematographic Orchestration) 단계로 도약할 수 있음을 증명했습니다.

기술적 의의: 고수준의 서사적 의도 (Narrative Intent) 와 저수준의 기하학적 정밀도 (Geometric Precision) 사이의 간극을 해소했습니다.
미래 영향: "영화의 문법 (Grammar of Film)"을 AI 에게 가르칠 수 있는 고품질 데이터셋과 프레임워크를 제공함으로써, 향후 더 복잡하고 긴 분량의 멀티샷 영상 생성 연구의 토대를 마련했습니다.

이 연구는 단순한 모션 제어를 넘어, AI 가 영화 감독의 관점에서 카메라를 구사하고 편집할 수 있는 가능성을 열었다는 점에서 의의가 큽니다.

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation