MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit 는 분 단위 장편 비디오 편집의 계산 비용과 시간적 일관성 문제를 해결하기 위해 세그먼트 간 흐름 정렬과 전역 참조 프레임 기반 어텐션 메커니즘을 활용한 훈련 없는 프레임워크를 제안합니다.

Yangyi Cao, Yuanhang Li, Lan Chen, Qi Mao

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 자연스럽게 편집하는 새로운 방법 (MLV-Edit)"**에 대한 내용입니다.

기존의 AI 영상 편집 기술은 짧은 영상 (몇 초~몇 분) 은 잘 만들지만, 1 분 이상의 긴 영상을 편집하려 하면 두 가지 큰 문제가 생깁니다.

  1. 컴퓨터가 너무 지쳐버림: 영상을 한 번에 다 처리하려면 메모리와 계산 능력이 너무 많이 필요해서 실용적이지 않습니다.
  2. 영상이 찢어지고 흔들림: 영상을 잘게 쪼개서 하나씩 편집했다가 다시 붙이면, 이어지는 부분에서 **깜빡임 (flickering)**이 생기거나, 주인공의 모습이 자꾸 변하는 (drift) 문제가 발생합니다.

이 논문은 이 문제를 해결하기 위해 **'MLV-Edit'**라는 새로운 시스템을 제안합니다. 마치 거대한 퍼즐을 맞추는 것처럼, 긴 영상을 잘게 나누어 편집하되, 이어지는 부분과 전체적인 흐름을 자연스럽게 이어주는 두 가지 비밀 무기를 사용했습니다.


🎬 MLV-Edit 의 핵심 아이디어: "조각내되, 자연스럽게 이어주기"

이 시스템은 긴 영상을 작은 조각 (세그먼트) 으로 나누어 하나씩 편집합니다. 하지만 단순히 잘라 붙이는 게 아니라, 두 가지 핵심 기술을 적용합니다.

1. 속도 블렌딩 (Velocity Blend) = "다리 연결하기"

  • 문제 상황: 두 개의 영상 조각을 붙일 때, 한쪽은 빨리가고 다른 쪽은 느리게 움직이면 경계선에서 영상이 툭 끊기거나 떨리는 현상이 발생합니다.
  • 해결책 (비유): 두 조각이 만나는 경계선 (중첩된 부분) 에서 두 조각의 '속도'를 섞어줍니다.
    • 마치 다리를 놓을 때, 양쪽 강둑 (영상 조각) 을 완전히 딱 붙이는 게 아니라, 중간에 겹치는 구간을 만들어서 부드럽게 이어주는 것과 같습니다.
    • 이 과정을 통해 영상이 끊기는 지점에서도 움직임이 매끄럽게 이어져, 깜빡임이나 떨림이 사라집니다.

2. 어텐션 싱크 (Attention Sink) = "나침반"

  • 문제 상황: 영상을 조각내서 편집하다 보면, 1 분짜리 영상이라도 처음의 모습과 나중의 모습이 달라지는 현상이 생깁니다. 예를 들어, "고양이를 호랑이로 바꿔라"라고 했을 때, 처음엔 호랑이인데 1000 프레임 뒤엔 귀가 사라지거나 색이 변해버릴 수 있습니다.
  • 해결책 (비유): 영상을 시작할 때의 '원본 모습'을 나침반 (기준점) 으로 삼아, 내내 그 방향을 잃지 않게 잡아줍니다.
    • 마치 긴 여행을 할 때, 처음 출발한 지점을 기억하고 **"우리는 항상 이 기준을 잊지 말자"**라고 계속 상기시키는 것과 같습니다.
    • 이 '나침반'을 통해 편집된 영상이 시간이 지나도 주인공의 모습과 특징이 일관되게 유지되도록 합니다.

🏆 왜 이것이 특별한가요?

기존 방법들은 긴 영상을 편집할 때 컴퓨터가 너무 무거워지거나, 영상이 조각조각 나 있는 것처럼 보였습니다. 하지만 MLV-Edit 은 다음과 같은 장점이 있습니다.

  • 학습 불필요 (Training-Free): 새로운 AI 모델을 처음부터 가르칠 필요가 없습니다. 이미 잘 만들어진 기술을 똑똑하게 조합만 하면 됩니다.
  • 아무 길이든 가능: 1 분, 10 분, 1 시간 영상이나 상관없이 같은 방법으로 편집할 수 있습니다.
  • 완벽한 일관성: 실험 결과, 다른 최신 기술들보다 영상이 더 안정적이고, 편집 의도 (텍스트) 를 더 정확하게 반영하며, 시간이 지나도 모습이 변하지 않는 것으로 입증되었습니다.

💡 한 줄 요약

"긴 영상을 잘게 쪼개서 편집하되, 조각 사이의 경계는 부드럽게 이어주고 (속도 블렌딩), 처음부터 끝까지 주인공의 모습을 잊지 않게 나침반을 세워주어 (어텐션 싱크) 자연스럽게 만드는 혁신적인 기술입니다."

이 기술은 앞으로 유튜브, 영화 예고편, 긴 다큐멘터리 등 긴 영상을 AI 로 편집할 때 매우 유용하게 쓰일 것으로 기대됩니다.