JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

JenBridge는 트랜스포머 기반 생성 모델과 LLM 기반 디렉터 에이전트를 활용하여, 새롭게 제안된 LVS 벤치마크를 통해 검증된, 장면 전환 시 자연스럽고 서사적으로 일관된 전환을 갖춘 고충실도의 장편 비디오 사운드트랙을 제작하는 혁신적이고 모듈화된 프레임워크이다.

원저자: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang

게시일 2026-06-02✓ Author reviewed
📖 3 분 읽기☕ 가벼운 읽기

원저자: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 영화 감독이라고 상상해 보세요. 대신에 영화 음악을 작곡할 작곡가를 고용하는 대신, 매우 똑똑하고 자동화된 로봇 조수를 고용했습니다. 당신의 영화는 길고, 조용한 숲에서 고속 자동차 추격전으로, 그리고 다시 슬픈 작별 장면으로 급격히 변하는 다양한 장면들로 가득 차 있습니다.

현재의 AI 음악 도구들의 문제는, 그들이 한 번에 하나의 노래만 연주할 줄 아는 음악가와 같다는 점입니다. 만약 당신이 영화 전체를 위해 음악을 만들어 달라고 요청한다면, 그들은 숲을 위해 행복한 곡을 연주했다가, 자동차 추격전을 위해 갑자기 헤비메탈 곡으로 전환하는 등, 부자연스럽고 단절된 엉망진창인 결과물을 내놓을 수 있습니다. 그들은 장면 사이의 간극을 어떻게 '연결(bridge)'해야 하는지 알지 못합니다.

JenBridge는 이 문제를 해결하기 위해 설계된 새로운 시스템입니다. 이것을 '음악적 가교 건설자(musical bridge builder)'라고 생각하세요. JenBridge는 영화 전체를 다룰 수 있으며, 영상 장면이 극적으로 변하더라도 음악이 자연스럽게 흐르도록 보장합니다.

작동 방식은 다음과 같이 세 가지 간단한 단계로 나뉩니다.

1. 에디터(The Editor): 영화를 장면 단위로 나누기

먼저, JenBridge는 영화 편집자 역할을 합니다. 긴 영상을 보고 자동으로 논리적인 덩어리(장면)로 자릅니다. 단순히 무작위로 자르는 것이 아니라, 캐릭터가 방에서 나가거나 날씨가 변하는 것처럼 이야기가 바뀌는 지점을 찾아냅니다.

2. 작곡가(The Composer): 각 장면을 위한 음악 쓰기

다음으로, 각 작은 영상 조각을 위해 JenBridge에는 '작곡가' AI가 있습니다. 이 작곡가는 매우 재능이 있습니다. 영상 클립을 보고 "이 영상에는 어떤 종류의 음악이 어울릴까?"라고 자문합니다.

  • 이것은 특별한 번역기(VMPT)를 사용하여 영상에 대한 설명(예: "빗속에 있는 슬픈 로봇")을 음악적 레시피(예: "느리고 슬픈 피아노, 단조")로 변환합니다.
  • 그 후, 해당 장면에 특화된 고품질의 음악을 생성합니다.

3. 감독(The Director): 장면 사이의 "접착제"

이 부분이 가장 중요한 부분입니다. 과거에는 두 곡이 서로 다를 때, 그냥 두 곡을 테이프로 붙여버리곤 했는데, 이는 듣기에 매우 좋지 않습니다. JenBridge에는 음악들을 어떻게 연결할지 결정하는 감독(인간 영화 감독처럼 행동하는 AI 에이전트)이 있습니다.

감독은 장면을 연결하는 네 가지 방법이 담긴 '도구 상자'를 가지고 있습니다:

  • 하드 컷(The Hard Cut): 장면이 평온한 해변에서 갑작스러운 폭발로 바뀔 때, 감독은 음악을 즉시 멈추고 새 노래를 바로 시작합니다. 이는 이야기의 날카로운 '스냅(snap)'과 같습니다.
  • 침묵(The Silence): 캐릭터가 충격을 받았을 때, 감독은 긴장감을 높이기 위해 음악을 완전히 끊어 잠시 침묵을 유지할 수 있습니다.
  • 페이드(The Fade): 두 장면이 유사할 때(예: 아침 커피를 마시는 장면에서 아침 산책으로 넘어갈 때), 감독은 한 노래를 서서히 줄이면서 다른 노래를 서서히 키웁니다.
  • 브릿지(The Bridge - 마법 같은 기술): 이야기가 '슬픔'에서 '희망'으로 바뀔 때, 감독은 단순히 곡을 바꾸는 데 그치지 않습니다. 감독은 특별한 AI를 사용하여 슬픈 곡을 희망찬 곡으로 매끄럽게 변화시키는 새로운 음악적 브릿지를 작곡합니다. 이것은 두 언어를 모두 구사하며 완벽하게 연결되는 문장을 만들어내는 특별한 음악적 번역기와 같습니다.

감독은 똑똑하기 때문에, "좋아, 이 장면은 하드 컷이 필요하지만, 다음 장면은 부드러운 브릿지가 필요해"라고 판단할 수 있습니다. 감독은 인간 감독처럼 지능적으로 이러한 선택을 내립니다.

어떻게 테스트했는가

제작자들은 아무도 긴 영화를 위해 AI가 이 작업을 제대로 수행할 수 있는지 제대로 테스트한 적이 없다는 것을 깨달았습니다. 그래서 그들은 LVS 벤치마크라는 새로운 '시험'을 만들었습니다.

  • 그들은 장면 전환이 빠른 120개의 영화 예고편을 가져왔습니다.
  • JenBridge와 여러 다른 AI 시스템들에게 이 예고편들에 음악을 입히도록 했습니다.
  • 그리고 인간 청취자들에게 결과를 평가하게 했습니다.

결과: JenBridge는 압도적인 차이로 승리했습니다. 인간 청취자들은 JenBridge의 음악이 훨씬 더 자연스럽고, 전환이 더 매끄러우며, 전체 영화가 무작위로 노래를 이어 붙인 것이 아니라 하나의 응집력 있는 이야기를 가진 것처럼 느껴졌다고 평가했습니다.

요 요약

JenBridge는 단순히 영상 클립을 위한 음악을 만드는 시스템이 아니라, 이야기를 이해하는 시스템입니다. 이 시스템은 영상을 분해하고, 각 부분에 맞는 맞춤형 음악을 작성한 다음, 영화 자체와 마찬가지로 음악이 자연스럽게 흐를 수 있도록 정확히 어떻게 각 부분을 연결할지 결정하는 똑똑한 '감독'을 사용합니다. 이것은 진정한 창의적 파트너로서 영화 제작에 참여하는 AI를 향한 한 걸음입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →