LayerT2V: A Unified Multi-Layer Video Generation Framework

이 논문은 단일 추론으로 배경과 여러 전경 레이어를 포함한 일관된 레이어화된 비디오를 생성하여 전문 워크플로우를 지원하고, VidLayer 데이터셋과 새로운 아키텍처를 통해 기존 방법보다 뛰어난 화질과 일관성을 달성하는 통합 멀티레이어 비디오 생성 프레임워크인 LayerT2V 를 제안합니다.

Guangzhao Li, Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Lei Zhang, Xiaohong Liu

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

LayerT2V: 비디오를 '레이어드 케이크'처럼 만드는 혁신

이 논문은 **"LayerT2V"**라는 새로운 기술을 소개합니다. 쉽게 말해, 텍스트를 입력하면 고화질 동영상을 만들어주는 AI 가 이제까지 한 번에 '완성된 영상'만 줬다면, 이제는 영상을 구성하는 각 층 (레이어) 을 따로따로 뽑아내어 주는 기술입니다.

이걸 이해하기 위해 요리사진 편집에 비유해 보겠습니다.


1. 기존 방식 vs. 새로운 방식: "완성된 파스타" vs "재료 분리"

  • 기존 AI (Sora, Wan 등):
    마치 식당에서 주문한 완성된 파스타를 받는 것과 같습니다. "매콤한 파스타 만들어줘"라고 하면, 소스, 면, 고기가 섞인 파스타 한 그릇을 줍니다. 문제는 이 파스타에서 고기만 빼고 버섯으로 바꾸거나, 배경을 바다로 바꾸는 것이 거의 불가능하다는 점입니다. 다시 처음부터 파스타를 만들어야 합니다.

  • LayerT2V (새로운 방식):
    이 기술은 조리대 위의 재료를 따로따로 담아주는 접시를 줍니다.

    1. 완성된 파스타 (Full Video): 원래 모습 그대로.
    2. 소스만 담은 접시 (Background): 배경만 따로.
    3. 고기만 담은 접시 (Foreground): 주인공만 따로.
    4. 고기의 모양을 가리는 투명 테두리 (Alpha Matte): 고기가 어디까지 있는지 정확히 알려주는 테두리.

이제 사용자는 이 '접시들'을 가지고 자유롭게 조합할 수 있습니다. "배경을 산으로 바꾸고, 주인공은 춤을 추게 해줘"라고 하면, AI 는 이미 분리된 레이어를 바탕으로 새로운 영상을 합성해냅니다.

2. 어떻게 가능한 걸까? "시간의 줄에 꿰어놓기"

그런데 AI 가 어떻게 한 번에 여러 개의 레이어를 동시에 만들어낼까요? 여기서 핵심 아이디어는 **"시간의 줄에 꿰어놓기"**입니다.

  • 비유: 보통 AI 는 영상을 만들 때 시간순으로 프레임을 하나씩 그립니다. LayerT2V 는 이 시간을 수직으로 늘려서 여러 레이어를 한 줄에 꿰어놓습니다.
    • [배경 1 프레임] - [배경 2 프레임] - ... - [주인공 1 프레임] - [주인공 2 프레임] ...
  • 이렇게 하면 AI 는 한 번의 작업으로 모든 레이어를 동시에 그릴 수 있게 됩니다. 마치 한 장의 긴 천을 그려서, 나중에 가위로 잘라내어 배경과 주인공을 따로 쓰는 것과 같습니다. 이렇게 하면 배경과 주인공이 서로 어긋나는 일 (불일치) 이 자연스럽게 사라집니다.

3. 기술의 핵심: "각자만의 안경" (LayerAdaLN)

여러 레이어를 한 번에 그릴 때 문제가 생길 수 있습니다. "배경은 정지해 있어야 하는데, 주인공은 움직여야 한다"는 식으로 서로 다른 특성을 가진 것들을 섞다 보면 AI 가 혼란을 겪을 수 있습니다.

  • 해결책: LayerT2V 는 각 레이어에게 **고유한 '안경' (LayerAdaLN)**을 씌워줍니다.
    • 배경 레이어는 "나는 정적인 배경이야, 천천히 움직여"라고 알려주고,
    • 주인공 레이어는 "나는 활발하게 움직여야 해!"라고 알려줍니다.
    • 이렇게 AI 가 각 레이어의 특성을 정확히 구분하게 만들어, 배경이 흐릿해지거나 주인공이 배경에 섞이는 현상을 막습니다.

4. 데이터의 비밀: "VidLayer"라는 새로운 도서관

이 기술을 가르치기 위해서는 '배경과 주인공이 분리된' 수많은 영상 데이터가 필요합니다. 하지만 세상에 그런 데이터는 거의 없었습니다.

  • VidLayer (비드레이어): 연구팀은 자동화 공장을 가동하여 기존 영상 5 만 개를 분석했습니다.
    • AI 가 영상 속 주인공을 찾아내고 (예: "노란 모자를 쓴 사람"),
    • 그 사람을 잘라내어 배경과 분리하고,
    • 배경은 다시 채워 넣는 작업을 자동화했습니다.
    • 이렇게 만든 400 만 장의 프레임으로 구성된 새로운 데이터셋을 공개했습니다. 이는 마치 레이어 편집을 배우기 위한 최고급 교재와 같습니다.

5. 왜 이것이 중요한가요?

이 기술은 전문가들의 작업 방식을 바꿀 것입니다.

  • 영화/광고 제작: "배경을 겨울로 바꿔줘"라고 하면, 매번 다시 촬영할 필요 없이 배경 레이어만 교체하면 됩니다.
  • 유튜브/콘텐츠: "주인공만 크게 보여줘" 혹은 "주인공을 다른 사람으로 바꿔줘" 같은 편집이 순식간에 가능해집니다.
  • 창의성: 이제 AI 는 단순히 영상을 '만드는' 도구가 아니라, 사용자가 원하는 대로 조립하고 변형할 수 있는 '레고' 같은 도구가 됩니다.

요약

LayerT2V는 AI 가 영상을 만들 때, 마치 케이크를 층층이 분리해서 주는 것처럼 배경, 주인공, 투명 테두리를 따로따로 만들어줍니다. 이를 통해 사용자는 완성된 영상을 다시 편집하듯, 배경을 바꾸거나 주인공을 수정하는 등 자유로운 창의적 작업을 할 수 있게 됩니다. 이는 비디오 생성 AI 의 다음 단계, 즉 '조절 가능한 영상' 시대를 여는 중요한 발걸음입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →