MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"MSVBench"**라는 새로운 도구를 소개합니다. 이 도구는 인공지능 (AI) 이 만드는 긴 영상 (영화나 드라마 같은 다중 샷 영상) 을 얼마나 잘 평가할 수 있는지 측정하는 '최고의 영화 비평가' 역할을 합니다.

기존의 평가 방식은 마치 "한 장의 사진만 보고 영화를 평가하는 것"과 같았지만, MSVBench 는 "전체 스토리를 보고, 등장인물의 옷차림이 변하지 않았는지, 물리 법칙이 지켜졌는지까지 꼼꼼히 체크"합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 새로운 도구가 필요할까요? (기존의 문제점)

지금까지 AI 영상 평가는 **"단편 영화 (Short clip)"**만 보았습니다.

기존 방식: AI 가 만든 3 초짜리 영상을 보고 "화질이 좋네, 사람이 잘 움직이네"라고 점수를 매겼습니다.
문제점: 하지만 진짜 영화는 10 분, 1 시간짜리 긴 이야기입니다.
- 비유: 만약 우리가 **"한 장의 사진"**만 보고 **"전체 드라마의 완성도"**를 평가하려 한다면 어떨까요?
- 주인공이 첫 장면에서는 빨간 옷을 입었는데, 두 번째 장면에서는 갑자기 파란 옷으로 변해있어도 모릅니다.
- 혹은 주인공이 컵을 들었는데, 다음 장면에서는 컵이 공중에 떠다니는 기적 같은 일이 일어나도 "화질은 좋으니까 OK"라고 넘어갈 수 있습니다.

기존 평가 도구들은 이런 **긴 이야기의 흐름 (스토리)**과 연속성을 제대로 못 봤습니다.

2. MSVBench 는 무엇인가요? (해결책)

MSVBench 는 **"AI 영화 감독과 비평가 팀"**이라고 생각하시면 됩니다. 이 팀은 두 가지 능력을 합쳐서 영상을 평가합니다.

세밀한 눈 (전문가 모델):
- 비유: 마치 **"현미경을 든 검사관"**입니다.
- "이 장면에서 눈동자가 흔들리지 않았나?", "옷 주름이 자연스러운가?", "배경이 갑자기 바뀐 곳은 없나?"를 숫자로 딱딱하게 측정합니다.
큰 그림을 보는 눈 (대형 언어 모델):
- 비유: 마치 **"감성적인 영화 평론가"**입니다.
- "대본에 따르면 주인공이 슬퍼야 하는데, 왜 웃고 있지?", "이 장면에서 카메라가 위로 올라가야 하는데 왜 아래로 내려갔지?"라고 이야기의 논리를 파악합니다.

이 두 팀이 협력해서, **화질 (Visual)**과 이야기 (Story), 일관성 (Consistency), 움직임 (Motion) 등 4 가지 큰 기준을 모두 꼼꼼히 채점합니다.

3. 이 도구를 써서 무엇을 발견했나요? (주요 발견)

MSVBench 로 20 개의 최신 AI 영상 생성 모델을 테스트한 결과, 놀라운 사실을 발견했습니다.

현재 AI 의 한계:
- 많은 AI 모델들은 **"화질은 정말 예쁘지만, 진짜 세계를 이해하지는 못한다"**는 결론이 나왔습니다.
- 비유: AI 는 **"매우 똑똑한 사진 편집기"**일 뿐, **"진짜 세상을 이해하는 두뇌"**는 아니라는 뜻입니다.
- 예를 들어, AI 는 "사람이 뛰어오른다"고 했을 때, 점프하는 모습은 잘 만들지만, 중력을 무시하고 공중에 둥둥 떠다니거나, 점프 후 착지할 때 다리가 뚫리는 등 물리 법칙을 어기는 실수를 자주 범합니다.
- 또한, 긴 이야기에서는 **주인공의 얼굴이나 옷이 장면마다 바뀌는 '일관성 실수'**를 많이 저지릅니다.
상업용 vs 오픈소스:
- 소라 (Sora) 나 비오 (Veo) 같은 거대 기업 모델은 여전히 최고 수준이지만, 오픈소스 모델 (Wan2.2 등) 도 그 격차를 빠르게 좁히고 있습니다.

4. 이 도구의 가장 큰 장점은? (AI 를 가르치는 선생님)

이 논문에서 가장 혁신적인 부분은 MSVBench 가 단순히 **'평가만 하는 도구'**가 아니라 **'AI 를 가르치는 선생님'**이 될 수 있다는 점입니다.

비유: MSVBench 는 AI 가 영상을 만들 때 실수한 부분 (예: 옷이 변함, 물리 법칙 위반) 을 자세한 설명과 함께 기록합니다.
이 기록을 바탕으로 작은 AI 모델 (Qwen3-VL-4B) 을 훈련시켰더니, 거대하고 비싼 상용 모델 (Gemini-2.5 등) 보다 더 똑똑하게 영상을 평가하는 능력을 갖게 되었습니다.
즉, MSVBench 는 "인간이 어떻게 영상을 평가하는지"를 AI 에게 완벽하게 가르쳐 준 것입니다.

5. 요약: 이 논문이 우리에게 주는 메시지

과거: "AI 가 만든 짧은 영상이 예쁘면 OK!"
현재 (MSVBench): "긴 영화에서 스토리가 연결되고, 인물이 일관되며, 물리 법칙이 지켜져야 진정한 AI 영화다!"
미래: 이 평가 기준을 통해 AI 가 단순히 그림을 그리는 것을 넘어, 진짜 영화 감독처럼 논리적이고 일관된 이야기를 만들어내는 시대가 올 것입니다.

결론적으로, 이 논문은 **"AI 영상 기술이 이제 '단편'에서 '장편 영화'로 넘어가는 중요한 전환점"**에 있으며, 이를 제대로 평가하고 발전시키기 위한 새로운 기준을 제시했다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현재 비디오 생성 기술은 짧은 단일 샷 (single-shot) 클립에서 복잡한 다중 샷 (multi-shot) 내러티브로 진화하고 있지만, 이를 평가하는 방법론은 이러한 발전에 뒤처져 있습니다.

기존 벤치마크의 한계: VBench, EvalCrafter 등의 기존 평가 지표는 단일 샷에 최적화되어 있으며, 전문 모델 (expert models) 에 의존하여 복잡한 내러티브나 장편 일관성을 평가하기 어렵습니다.
LMM 기반 평가의 부족: 최근 LMM(대형 멀티모달 모델) 을 활용한 시도들이 있으나, 객관적인 기준이 부족하고 도메인 특화적인 지각 (perception) 능력이 결여되어 있습니다.
데이터 및 메트릭 부재: 스토리 기반 생성을 위한 완전한 스크립트, 샷별 참조 이미지 (reference images), 그리고 샷 간 일관성 (cross-shot consistency) 을 측정할 수 있는 메트릭이 부족하여, 인간 평가의 대체재로 활용하기 어렵습니다.

2. 방법론 (Methodology)

가. MSVBench 데이터셋 및 계층적 구조

MSVBench 는 다중 샷 비디오 생성을 평가하기 위해 설계된 최초의 종합 벤치마크입니다. 데이터는 다음과 같은 계층적 구조로 조직화됩니다.

글로벌 컨텍스트 (Global Context): 등장인물 (캐릭터) 과 환경 (배경) 에 대한 참조 이미지와 텍스트 설명을 포함하여 정체성 일관성을 보장합니다.
계층적 스크립트 (Hierarchical Script): 전체 이야기를 '장면 (Scene)' 단위로 나누고, 각 장면을 다시 '샷 (Shot)' 단위로 분해합니다.
샷 주석 (Shot Annotations): 각 샷에 대해 시각적 컨텍스트, 샷 설명 (동적 행동 포함), 그리고 카메라 운동 (Cinematography) 지시를 포함하는 멀티모달 주석을 제공합니다.
데이터 구축: ViStoryBench 의 20 개 스토리를 기반으로 GPT-Image-1, Nano Banana, Gemini-2.5-Flash 등을 활용하여 고품질의 참조 프레임 생성, 프롬프트 정제, 카메라 운동 지시어 확장을 수행했습니다.

나. 하이브리드 평가 프레임워크

단순한 LMM 평가나 전문 모델 평가의 한계를 극복하기 위해 하이브리드 평가 프레임워크를 제안합니다.

구조: 도메인 특화 전문 모델 (Specialized Expert Models) 과 고수준 추론이 가능한 LMM(Gemini-2.5-Flash 등) 을 결합합니다.
4 가지 차원 20 개 하위 메트릭:
1. 시각적 품질 (Visual Quality): Dover Score, MusIQ, 스타일 일관성 등.
2. 스토리 - 비디오 정렬 (Story Video Alignment): VQAScore, 객체 검출 및 카운팅, 샷 관점 정렬, 상태 변화 및 지속성 등.
3. 비디오 일관성 (Video Consistency): 얼굴/캐릭터/의상/배경/상대적 크기 일관성 등 (샷 간 정체성 유지 평가).
4. 동작 품질 (Motion Quality): 동작 인식, 동작 강도, 카메라 제어, 물리적 타당성, 물리적 상호작용 정확도 등.

다. 평가자 모델 훈련 (Supervisor Pipeline)

MSVBench 를 단순 평가 도구를 넘어 고품질 감독 신호 (supervisory signal) 로 활용합니다.

평가 과정에서 생성된 추론 흔적 (reasoning traces) 을 데이터로 변환하여 경량 모델 (Qwen3-VL-4B) 을 파인튜닝합니다.
이를 통해 인간과 유사한 평가 능력을 가진 모델을 구축합니다.

3. 주요 기여 (Key Contributions)

최초의 다중 샷 비디오 벤치마크: 계층적 데이터 구성과 하이브리드 평가 프레임워크를 갖춘 MSVBench 를 제안했습니다.
인간 수준의 평가 정확도: 20 개의 다양한 생성 모델에 대한 평가를 통해, 제안된 벤치마크가 인간 평가와 **스피어만 순위 상관계수 (Spearman's rank correlation) 94.4%**의 높은 상관관계를 보임을 입증했습니다.
모델 한계 규명 및 감독 신호 제공: 현재 모델들이 '세계 모델 (World Model)'이 아닌 '시각적 보간기 (Visual Interpolators)'에 가깝다는 사실을 규명했으며, 이를 통해 훈련된 경량 모델이 상용 모델 (Gemini-2.5-Flash) 보다 뛰어난 평가 성능을 보임을 증명했습니다.

4. 실험 결과 (Results)

가. 모델 성능 평가 (20 개 모델 대상)

상용 모델: Sora2, Veo3.1 이 스토리 정렬과 동작 품질에서 최상위권을 유지했습니다.
오픈소스 모델: Wan2.2 시리즈 (특히 Wan2.2-I2V) 가 비디오 일관성 측면에서 상용 모델과 대등한 성능을 보이며 빠르게 격차를 좁히고 있습니다.
에이전트 기반: AniMaker 가 모든 차원에서 균형 잡힌 성능을 보였습니다.

나. 핵심 인사이트 (Critical Insights)

전체적 모델링의 부재: 현재 모델들은 단일 샷 해석에는 능숙하지만, 물리 법칙이나 시맨틱 일관성을 유지하는 '전체적 세계 모델'로서는 실패합니다. (예: 물리적 상호작용 정확도 점수 낮음, 샷 간 캐릭터/의상 일관성 저하)
상호작용의 트레이드오프: 강한 동작 (Action Strength) 을 구현할수록 물리적 타당성 (Physical Plausibility) 이 떨어지는 경향이 있으며, 카메라 제어는 캐릭터 일관성을 해치는 경우가 많습니다.
참조 이미지의 양날: 참조 이미지는 일관성을 높이지만 (Wan2.2-I2V), 2D 픽셀에 국한되어 깊이와 운동학적 잠재력을 제한하여 물리적 타당성 (Physical Plausibility) 을 저하시킬 수 있습니다.

다. 인간 평가와의 상관관계

MSVBench 는 기존 벤치마크 (VBench, ViStoryBench 등) 를 압도하며 인간 평가와 **94.4% (Spearman's $\rho$ )**의 높은 상관관계를 기록했습니다.
이를 통해 MSVBench 가 인간 평가의 신뢰할 수 있는 대체재가 될 수 있음을 입증했습니다.

라. 경량 평가자 모델 성능

MSVBench 데이터로 파인튜닝된 Qwen3-VL-4B 모델은 상용 모델인 Gemini-2.5-Flash보다 높은 인간 정렬 성능 (Spearman's $\rho$ 83.6% vs 79.2%) 을 보였습니다.

5. 의의 및 결론 (Significance)

평가 패러다임의 전환: 단순한 화질 평가를 넘어, 스토리텔링, 일관성, 물리 법칙 등을 종합적으로 평가할 수 있는 표준을 제시했습니다.
모델 발전의 방향성 제시: 현재 생성 모델이 '시각적 보간기'에 머무르고 있음을 지적하며, 진정한 '세계 모델'로 발전하기 위해 필요한 과제 (물리적 상호작용, 장기적 일관성 등) 를 명확히 했습니다.
자동화된 감독 신호: 벤치마크를 통해 생성된 고품질 데이터를 활용해 경량 모델을 훈련시켜, 비용 효율적이면서도 인간 수준의 평가 능력을 갖춘 자동 평가 시스템을 구축할 수 있음을 보였습니다.

이 논문은 비디오 생성 기술이 장편 내러티브로 확장됨에 따라 필수적인 평가 인프라를 마련하고, 해당 분야의 기술적 한계를 진단하여 향후 연구 방향을 제시한다는 점에서 큰 의의가 있습니다.