Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 '내러티브 위버 (Narrative Weaver)': AI 영화감독과 사진관리의 마법

이 논문은 **"AI 가 긴 이야기를 만들 때, 등장인물과 배경이 자꾸 바뀌거나 흐트러지는 문제를 해결한 새로운 방법"**을 소개합니다.

기존의 AI 는 짧은 영상이나 사진 한 장을 만드는 건 잘하지만, **"오랜 시간 동안 같은 인물이 같은 옷을 입고, 같은 배경에서 이야기를 이어가는 것"**은 매우 어렵습니다. 마치 영화를 찍을 때, 1 장의 사진은 잘 나왔는데 2 장에서는 주인공의 얼굴이 바뀌거나 옷이 다른 색으로 변해버리는 것과 같습니다.

이 문제를 해결하기 위해 개발된 **'내러티브 위버 (Narrative Weaver)'**는 마치 유능한 영화 제작팀처럼 작동합니다.


🎭 1. 핵심 역할: "지휘자"와 "메모장"

이 시스템은 크게 두 가지 핵심 역할을 합니다.

① 지휘자 (MLLM): "대본을 쓰는 감독"

기존 AI 는 "그림을 그려줘"라고 하면 그리는 데만 집중합니다. 하지만 내러티브 위버는 먼저 대본 (스토리) 을 먼저 씁니다.

  • 비유: 마치 영화 감독이 "1 장은 주인공이 커피를 마시고, 2 장은 창밖을 바라보며, 3 장은 친구를 만난다"라고 구체적인 대본을 먼저 짜는 것입니다.
  • 이 '지휘자'는 텍스트로 이야기를 계획하고, 다음 장면이 어떻게 이어져야 할지 미리 정해줍니다.

② 메모장 (Memory Bank): "잊지 않는 비서"

가장 중요한 부분은 **일관성 (Consistency)**입니다.

  • 비유: 영화를 찍을 때, 100 장의 사진을 찍는데 매번 주인공의 얼굴이 달라지면 어떨까요? 내러티브 위버는 **'기억 메모장'**을 가지고 있습니다.
  • 이 메모장에 첫 번째 사진의 주인공 얼굴, 옷차림, 배경을 저장해두고, 다음 사진을 그릴 때마다 "아, 이 사람은 처음에 입었던 빨간 망토를 입고 있었지?"라고 수시로 확인합니다.
  • 덕분에 시간이 지나도 주인공의 얼굴이나 옷이 변하지 않고, 이야기가 자연스럽게 이어집니다.

🛠️ 2. 어떻게 배웠을까요? (단계별 훈련)

이 AI 는 한 번에 모든 것을 배운 것이 아니라, 3 단계로 나누어 점진적으로 훈련받았습니다.

  1. 1 단계 (스토리텔러): 먼저 대본 쓰는 법을 배웁니다. "어떤 이야기가 흘러가야 하는지" 텍스트로 계획하는 능력을 기릅니다.
  2. 2 단계 (연결고리): 대본과 그림을 이어줍니다. "대본에 나온 '빨간 망토'라는 단어를 그림에서 실제로 빨간 망토로 그리는 법"을 배웁니다.
  3. 3 단계 (세밀한 조정): 마지막 단계에서 세부적인 일관성을 다집니다. "앞서 그린 그림의 조명, 그림자, 배경의 나무 모양까지 완벽하게 맞추는 법"을 훈련합니다.

이렇게 조금씩 단계별로 배우는 방식 덕분에 적은 데이터로도 뛰어난 성능을 낼 수 있었습니다.


📸 3. 새로운 데이터: "쇼핑 광고용 스토리보드"

이 연구를 위해 기존에 없던 **새로운 데이터셋 (EAVSD)**을 만들었습니다.

  • 문제: 기존 데이터는 짧은 영상 조각들이라 긴 이야기를 만들기에 부족했습니다.
  • 해결: 쇼핑 광고에 초점을 맞췄습니다. "이 제품을 다양한 상황에서 보여주는 광고"를 만들기 위해, 한 제품이 30 만 장 이상의 이미지 속에서 같은 모습으로 등장하는 데이터를 직접 만들었습니다.
  • 예시: "여름 카페에서 커피를 마시는 모습" → "겨울 산책길에서 코트를 입고 걷는 모습"으로 이어지는데, 옷차림과 얼굴은 똑같이 유지되도록 훈련했습니다.

🌟 4. 왜 중요한가요? (실생활 적용)

이 기술이 완성되면 다음과 같은 일이 가능해집니다.

  • 개인화된 광고: "내 아이가 주인공이 되어 모험을 떠나는 애니메이션"을 AI 가 자동으로 만들어줍니다. 아이가 옷을 갈아입거나 배경이 바뀌어도 아이의 얼굴은 그대로 유지됩니다.
  • 웹툰/만화 제작: "주인공이 도시를 여행하는 이야기"를 그릴 때, 매 페이지마다 주인공의 특징이 일관되게 유지되어 화가 없이도 스토리를 이어갈 수 있습니다.
  • 영화 제작: 대본만 입력하면, 등장인물과 배경이 일관된 긴 영상 시나리오를 자동으로 생성해줍니다.

💡 한 줄 요약

"내러티브 위버는 AI 에게 '대본을 먼저 쓰고, 기억을 잘해서 등장인물이 흐트러지지 않게 하는' 능력을 가르쳐, 긴 이야기를 자연스럽게 만들어내는 마법 같은 시스템입니다."

이 기술은 이제부터 AI 가 단순히 그림을 그리는 것을 넘어, 진짜 스토리를 가진 콘텐츠를 만드는 시대를 열었습니다.