Each language version is independently generated for its own context, not a direct translation.

🎬 '내러티브 LV' (NarrLV): 긴 영상 AI 를 위한 '스토리텔링 시험지'

이 논문은 **"AI 가 긴 영상을 만들 때, 이야기를 얼마나 잘 전달할 수 있는가?"**를 평가하는 새로운 방법론을 소개합니다. 기존에는 AI 가 영상을 얼마나 길게 만들거나 화질이 좋은지만 봤는데, 이 논문은 **"이야기의 풍부함"**에 집중합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 연구가 필요한가요? (기존의 문제점)

비유: "한 장의 사진 vs 10 분짜리 영화"
지금까지 AI 영상 생성 기술은 주로 짧은 영상 (5~10 초) 을 만드는 데 집중했습니다. 마치 스냅 사진을 찍는 것과 비슷하죠. "개 한 마리가 공을 쫓는다" 같은 간단한 장면은 잘 만들었습니다.

하지만 최근에는 **긴 영상 (Long Video)**을 만드는 AI 가 등장했습니다. 이는 10 분짜리 단편 영화를 만드는 것과 같습니다. 문제는 기존 평가 기준 (시험지) 이 여전히 '스냅 사진'용이라는 점입니다.

기존 시험지 (VBench 등): "개는 잘 나왔나요?", "공은 잘 나왔나요?"만 물어봅니다.
새로운 요구: "개가 공을 쫓다가, 넘어지고, 다시 일어나서 달리는 연속된 스토리가 자연스럽게 이어졌나요?"를 평가해야 합니다.

기존 시험지는 긴 이야기의 복잡한 줄거리를 평가할 수 없어서, AI 가 아무리 긴 영상을 만들어도 "이야기가 끊어지거나 엉망"인지를 제대로 알 수 없었습니다.

2. 이 논문이 제안한 해결책: 'NarrLV' (새로운 시험지)

이 논문은 영화 이론에서 영감을 받아 NarrLV라는 새로운 평가 기준을 만들었습니다. 핵심 개념은 **'시간적 서사 원자 (TNA)'**입니다.

🧩 핵심 개념: '시간적 서사 원자 (TNA)'

비유: "레고 블록"
영상 속 이야기를 구성하는 가장 작은 단위입니다.

TNA 1 개: "비가 내린다." (하나의 상태)
TNA 2 개: "비가 내리다가 -> 갑자기 해가 뜬다." (상태의 변화)
TNA 5 개: "비가 오고 -> 우산을 폈다 -> 우산을 접었다 -> 옷을 털었다 -> 집으로 들어갔다." (복잡한 일련의 사건)

이 TNA 의 개수가 많을수록 이야기가 풍부하고 복잡하다는 뜻입니다. 기존 평가는 TNA 가 1~2 개인 간단한 문장만 썼지만, NarrLV 는 TNA 가 6 개까지 포함된 복잡한 문장을 만들어 AI 를 시험합니다.

3. 어떻게 평가하나요? (3 단계 시험)

이 논문은 AI 가 만든 영상을 평가할 때, 3 단계로 나누어 질문을 던집니다. 마치 영화 평론가가 영화를 보며 체크하는 방식입니다.

1 단계: 기본 요소 정확도 (Narrative Element Fidelity)
- 질문: "비 (Scene) 가 맞나요? 우산 (Object) 이 나왔나요?"
- 의미: 이야기의 주인공과 배경이 제대로 등장했는지 확인합니다. (예: 비가 오는데 우산이 없으면 감점)
2 단계: 서사 단위 커버리지 (Narrative Unit Coverage)
- 질문: "비가 오고, 우산을 폈고, 옷을 털고... 모든 사건이 영상에 다 나왔나요?"
- 의미: 이야기의 전체 줄거리를 빠짐없이 다 그렸는지 확인합니다. (중간 사건이 빠지면 감점)
3 단계: 서사 단위 연결성 (Narrative Unit Coherence)
- 질문: "비가 오다가 우산을 펴는 전환이 자연스러웠나요?"
- 의미: 사건과 사건 사이의 흐름이 매끄러운지 확인합니다. (갑자기 우산이 사라졌다가 다시 나타나는 등 어색한 전환은 감점)

이 평가는 **거대 언어 모델 (MLLM)**이라는 'AI 심사위원'이 영상과 질문을 보고 자동으로 점수를 매기도록 설계되었습니다.

4. 실험 결과: AI 는 어디까지 할 수 있을까?

이 새로운 시험지로 다양한 AI 모델을 시험한 결과, 흥미로운 사실들이 드러났습니다.

📉 이야기가 길어질수록 실수가 늘어난다:
AI 는 "비가 온다" 같은 단순한 장면 (TNA 1 개) 은 잘 그립니다. 하지만 "비가 오고 -> 우산을 펴고 -> 옷을 털고 -> 집으로 간다"처럼 사건이 5~6 개로 이어지면, AI 는 중간에 사건을 잊어버리거나 (커버리지 부족), 장면 전환이 어색해집니다 (연결성 저하).
- 결론: 현재 AI 는 약 2~3 개의 사건이 포함된 이야기까지는 잘 만들지만, 그 이상은 아직 어렵습니다.
🏗️ 기초 모델이 중요:
긴 영상을 만드는 AI 는 보통 기존에 짧은 영상을 잘 만드는 '기초 모델'을 바탕으로 만들어집니다. 기초 모델이 이야기 전달 능력이 부족하면, 그 위에 긴 영상을 만드는 기술을 더해도 한계가 명확했습니다.

5. 요약: 이 연구의 의미

"AI 가 영화를 만든다면, 우리는 이제 '화질'뿐만 아니라 '대본'도 평가할 수 있게 되었습니다."

이 논문 (NarrLV) 은 단순히 영상이 길어지는 것만으로는 부족하며, 복잡한 이야기를 자연스럽게 이어가는 능력이 진정한 '긴 영상 생성'의 핵심임을 증명했습니다. 앞으로 AI 가 더 길고 재미있는 영화를 만들 수 있도록, 이 '스토리텔링 시험지'가 나침반이 되어줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 기초 비디오 생성 (Foundation Video Generation) 기술의 발전으로 긴 길이의 비디오를 생성하는 모델들이 등장하고 있습니다. 최근 연구들은 단순히 비디오의 길이를 늘리는 것을 넘어, 긴 비디오 내에서 풍부한 서사 (Narrative) 내용을 정확하게 표현하는 데 중점을 두고 있습니다.
문제점:
- 현재 존재하는 평가 벤치마크 (예: VBench) 는 주로 짧은 서사 프롬프트를 사용하며, 복잡한 서사 구조를 가진 긴 비디오 생성 모델의 능력을 평가하기에는 부적합합니다.
- 기존 벤치마크들은 서사적 풍부함 (Narrative Richness) 을 정량화할 수 있는 체계적인 단위와 평가 지표가 부족하여, 모델이 생성한 비디오의 서사적 일관성과 복잡성을 제대로 측정하지 못합니다.
- 이로 인해 최신 장편 비디오 생성 모델들의 실제 서사 표현 능력에 대한 명확한 이해와 비교 평가가 어렵습니다.

2. 제안 방법론 (Methodology)

저자들은 영화 서사 이론 (Film Narrative Theory) 에서 영감을 받아 NarrLV라는 새로운 벤치마크를 제안했습니다. 이는 세 가지 핵심 구성 요소로 이루어집니다.

가. 시간적 서사 원자 (Temporal Narrative Atom, TNA) 정의

TNA 정의: 비디오에서 연속적인 시각적 표현을 유지하는 가장 작은 서사 단위를 '시간적 서사 원자 (TNA)'로 정의합니다.
- 예: "사람이 자전거를 탄다" (TNA=1), "사람이 일어나서 걷는다" (TNA=2).
TNA 수의 의미: 프롬프트에 포함된 TNA 의 수가 많을수록 서사적 내용이 풍부해짐을 의미합니다.
TNA 변화 요인: TNA 수를 변화시키는 세 가지 핵심 요인을 도출했습니다.
1. 장면 속성 (Scene Attribute): 장면의 분위기, 조명, 날씨 등의 변화.
2. 객체 속성 (Object Attribute): 객체의 색상, 모양, 상태 등의 변화.
3. 객체 행동 (Object Action): 객체의 움직임이나 행동의 변화.

나. 확장 가능한 TNA 기반 프롬프트 스위트 (Extensible TNA-Driven Prompt Suite)

자동 프롬프트 생성 파이프라인: 대규모 언어 모델 (LLM) 을 활용하여 자동화된 프롬프트 생성 파이프라인을 구축했습니다.
데이터 소스: VideoUFO 및 DropletVideo 와 같은 대규모 데이터셋에서 장면 - 객체 쌍 (Scene-Object Pairs) 을 추출하여 기반을 마련했습니다.
유연한 확장성: 사용자가 지정한 TNA 수 (예: 1~6 개) 와 변화 요인 (장면, 객체, 행동) 에 따라 다양한 복잡도의 평가 프롬프트를 자동으로 생성할 수 있습니다. 이를 통해 기존 벤치마크가 다루지 못했던 고밀도 서사 콘텐츠를 평가할 수 있습니다.

다. 점진적 서사 표현 평가 지표 (Progressive Narrative-Expressive Evaluation Metric)

생성된 비디오의 서사적 품질을 평가하기 위해 멀티모달 LLM (MLLM) 기반의 질문 생성 및 답변 프레임워크를 도입하여 세 가지 차원의 지표를 설계했습니다.

서사 요소 충실도 (Narrative Element Fidelity, $R_{fid}$ ): 프롬프트에 명시된 기본 요소 (장면, 객체, 속성, 초기 배치) 가 비디오에 정확하게 생성되었는지 평가합니다.
서사 단위 커버리지 (Narrative Unit Coverage, $R_{cov}$ ): 프롬프트에 포함된 모든 TNA 가 비디오에 포함되었는지 (Coverage) 를 평가합니다.
서사 단위 일관성 (Narrative Unit Coherence, $R_{coh}$ ): 인접한 TNA 간의 전환 (Transition) 이 자연스럽게 이루어졌는지 평가합니다.
- 특징: MLLM 이 불확실한 질문에 대해 일관된 답변을 내기 어렵다는 점을 고려하여, 동일한 질문에 대해 5 번 반복 응답하고 긍정 답변의 비율을 최종 점수로 산출하여 신뢰도를 높였습니다.

3. 주요 기여 (Key Contributions)

최초의 서사 중심 벤치마크 NarrLV: 장편 비디오 생성 모델의 서사 표현 능력을 포괄적으로 평가하기 위해 설계된 최초의 벤치마크를 제안했습니다.
이론 기반의 평가 체계: 영화 서사 이론을 기반으로 TNA 를 정의하고, 이를 확장 가능한 프롬프트 스위트와 점진적 평가 지표 (Fidelity, Coverage, Coherence) 로 연결한 체계적인 방법론을 제시했습니다.
인간 선호도와의 높은 정합성: 제안된 평가 지표가 인간의 판단과 높은 일치도를 보임을 실험을 통해 입증했습니다.

4. 실험 결과 (Results)

기존 장편 비디오 생성 모델 (FreeNoise, Presto, RIFLEx 등) 과 기초 생성 모델 (Wan, HunyuanVideo, CogVideoX 등) 에 대한 광범위한 평가를 수행했습니다.

서사 복잡도에 따른 성능 저하: TNA 수가 증가할수록 모델의 **서사 단위 커버리지 ( $R_{cov}$ )**와 일관성 ( $R_{coh}$ ) 점수가 뚜렷하게 감소하는 경향을 보였습니다. 반면, 기본 요소 충실도 ( $R_{fid}$ ) 는 상대적으로 안정적이었습니다. 이는 모델이 기본 요소를 생성하는 능력은 있으나, 시간에 따른 복잡한 서사 구조를 구축하는 데 한계가 있음을 시사합니다.
제한된 표현 능력: 현재 모델들은 프롬프트에 포함된 TNA 중 약 2 개 이하만 효과적으로 표현할 수 있는 것으로 나타났습니다.
기초 모델의 영향력: 장편 비디오 모델의 서사 표현 능력은 이를 기반으로 한 기초 모델 (Foundation Model) 의 성능에 크게 의존한다는 사실이 확인되었습니다.
TNA 변화 요인별 차이: 모델은 객체의 행동 변화 (Object Action) 를 정확히 생성하는 데는 강점을 보였으나, 다양한 행동의 변이 (Variation) 를 구현하는 데는 어려움을 겪었습니다.

5. 의의 및 중요성 (Significance)

평가 기준의 패러다임 전환: 단순한 화질이나 짧은 장면 일관성을 넘어, 서사적 풍부함과 구조적 일관성을 평가하는 새로운 기준을 제시함으로써 장편 비디오 생성 연구의 방향성을 제시합니다.
모델 한계 규명: 현재 기술 수준에서 장편 비디오가 가진 서사적 표현의 한계 (Capability Boundaries) 를 정량적으로 규명하여, 향후 모델 개선이 필요한 방향 (예: 긴 시간적 의존성 모델링, 복잡한 서사 구조 제어) 을 제시합니다.
신뢰할 수 있는 평가 도구: 인간 평가자와 높은 정합성을 보이는 자동화된 평가 도구를 제공함으로써, 향후 장편 비디오 생성 모델의 발전 속도를 가속화하고 객관적인 비교를 가능하게 합니다.

이 논문은 생성형 AI 가 단순한 영상 생성을 넘어 영화나 스토리텔링과 같은 고차원적인 서사 작업을 수행할 수 있는지를 평가하는 데 있어 중요한 이정표가 될 것으로 기대됩니다.

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation