StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

이 논문은 영화 대본과 자막을 정렬한 StoryMovie 데이터셋을 구축하고 이를 기반으로 Qwen Storyteller3 모델을 미세 조정하여 시각적 근거뿐만 아니라 캐릭터 대화와 관계의 의미론적 정합성을 크게 향상시켰음을 보여줍니다.

Daniel Oliveira, David Martins de Matos

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"영화 스토리를 그림으로 만들 때, AI 가 자주 하는 실수를 어떻게 고칠까?"**에 대한 해답을 제시합니다.

한마디로 요약하면, **"그림만 보고 이야기를 지어내면 AI 는 캐릭터의 이름이나 대사를 엉뚱하게 만들어내는데, 실제 영화 대본 (스크립트) 과 자막을 연결해서 AI 에게 '진짜 이야기'를 가르쳤더니 훨씬 똑똑해졌다"**는 내용입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "눈은 좋지만 귀가 막힌 AI"

과거의 AI(비주얼 스토리텔링 모델) 는 그림을 보는 능력은 뛰어났습니다.

  • 상황: 두 사람이 서로 마주 보고 있는 그림이 있습니다.
  • AI 의 반응: "아, 두 사람이 서로를 바라보고 있군. 아마도 연인이겠지? '사랑해'라고 말하고 있겠지."

하지만 실제 영화에서는 그 두 사람이 형제일 수도 있고, 적대적인 관계일 수도 있습니다. AI 는 그림만 보고 "연인"이라고 추측해서 **할루시네이션 (망상)**을 일으켰습니다. 그림 속 인물의 표정이나 옷차림만으로는 그들이 누구인지, 무슨 대화를 나누는지 알 수 없기 때문입니다.

비유: 마치 눈만 가리고 귀를 막은 상태에서 두 사람이 대화하는 장면을 보고, "저 두 사람은 아마도 결혼식을 올리는 중이겠지?"라고 추측하는 것과 같습니다. 틀릴 확률이 매우 높죠.

2. 해결책: "영화 대본과 자막을 연결하는 '매칭' 기술"

저자들은 이 문제를 해결하기 위해 StoryMovie라는 새로운 데이터셋을 만들었습니다. 핵심 아이디어는 다음과 같습니다.

  • 영화 대본 (스크립트): "누가, 언제, 무슨 말을 했는지"는 정확히 적혀 있지만, "그 장면이 영화의 몇 분 몇 초에 나오는지"는 모릅니다.
  • 자막 (서브타이틀): "언제, 무슨 말이 들렸는지"는 정확히 적혀 있지만, "누가 말했는지"는 모릅니다.

저자들은 이 두 가지를 **LCS(가장 긴 공통 부분 수열)**라는 알고리즘으로 맞춰서, **"대본의 '존'이 자막의 '00:15:30'에 한 말"**이라고 정확히 연결했습니다.

비유: 마치 **대본 작가 (대본)**와 **녹음실 기술자 (자막)**가 만나서, "자, 이 대본의 3 페이지 2 줄은 15 분 30 초에 녹음된 거야. 그리고 그걸 말한 사람은 존이야!"라고 시간표와 대본을 완벽하게 동기화시킨 것입니다. 이제 AI 는 그림을 볼 때, "아, 이 장면은 존이 '안녕'이라고 말한 15 분 30 초 구분이구나"라고 정확히 알 수 있게 된 것입니다.

3. 결과: "Qwen Storyteller3"의 등장

이렇게 정교하게 연결된 데이터를 바탕으로 Qwen Storyteller3라는 새로운 AI 모델을 훈련시켰습니다.

  • 이전 모델: 그림만 보고 "아, 저 사람은 존이야. '안녕'이라고 말했어."라고 임의로 지어냈습니다.
  • 새로운 모델 (Storyteller3): 그림을 보면서도 "이건 존이 '안녕'이라고 말한 장면이야. 그리고 표정이 화난 건 대본에 '(화난 목소리로)'라고 적혀 있었어."라고 진실에 기반해 이야기를 지어냅니다.

4. 성능 평가: "얼마나 잘했을까?"

연구진은 DeepSeek V3 라는 다른 AI 를 심판으로 세우고 두 모델을 비교했습니다.

  • 대사 배정 (누가 무슨 말을 했나?):
    • 기존 모델: 3.5% 만 맞췄습니다.
    • 새로운 모델: 89.9% 를 맞췄습니다! (약 90% 정확도)
  • 관계 파악 (누가 누구와 어떤 관계인가?):
    • 기존 모델은 형제를 연인으로 오해하는 경우가 많았지만, 새로운 모델은 대본을 참고해서 정확한 관계를 파악했습니다.

비유: 기존 모델이 눈가리개 한 채로 두 사람의 관계를 추측하다가 10 번 중 9 번을 틀렸다면, 새로운 모델은 눈가리개를 벗고 대본을 확인한 뒤 10 번 중 9 번을 맞춘 것입니다.

5. 결론 및 한계

이 연구는 **"그림만 보는 것만으로는 부족하고, 실제 이야기 (대본) 를 함께 봐야 AI 가 더 똑똑해진다"**는 것을 증명했습니다.

  • 장점: 캐릭터의 이름, 대사, 감정, 관계를 훨씬 자연스럽게 만들어냅니다.
  • 한계: 아직은 영화라는 특정 장르의 데이터만 사용했습니다. 가족 사진이나 일상적인 SNS 사진처럼 대본이 없는 상황에서는 아직 완벽하지 않을 수 있습니다. 또한, 영어 영화에 국한되어 있어 다른 언어나 문화에는 적용이 필요합니다.

한 줄 요약:

"AI 에게 그림만 보여주고 이야기를 지으라고 하면 엉뚱한 소리를 하지만, 실제 영화 대본과 자막을 연결해서 '진짜 이야기'를 가르쳐주니, 이제 AI 는 영화 속 등장인물의 이름과 대사를 정확히 맞춰서 멋진 이야기를 만들어냅니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →