Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Each language version is independently generated for its own context, not a direct translation.

이 논문은 AVI-Edit이라는 새로운 기술을 소개합니다. 쉽게 말해, **"영상을 보고 소리를 듣고, 원하는 대로 캐릭터나 사물을 바꾸면서도 소리와 영상이 자연스럽게 딱 맞도록 만들어주는 마법 같은 도구"**입니다.

기존의 영상 편집 기술들은 소리를 무시하거나, 소리를 바꾸면 입 모양이 안 맞거나, 사물을 바꾸면 배경이 깨지는 문제가 있었습니다. AVI-Edit 는 이 모든 문제를 해결합니다.

이 기술을 일상적인 비유로 설명해 드릴게요.

1. AVI-Edit 가 해결하는 문제: "소리와 영상이 따로 노는 상황"

지금까지 영상 편집기를 썼다고 상상해 보세요.

상황: 영화 속 주인공의 옷을 빨간색으로 바꾸고 싶어요.
기존 기술의 문제: 옷은 빨간색으로 바뀌었는데, 주인공이 말하던 목소리가 사라지거나, 입 모양이 말과 안 맞아서 이상해 보일 수 있습니다. 마치 더미 인형 (가짜 사람) 에 목소리를 입혔는데, 입이 움직이지 않는 것처럼 어색하죠.

AVI-Edit 는 "옷을 바꾸면 목소리도 자연스럽게 따라오고, 입 모양도 완벽하게 맞춰주는" 기술입니다.

2. AVI-Edit 의 핵심 마법 3 가지

이 기술은 세 가지 '도구'를 조합해서 작동합니다.

① 정밀한 가위: "거친 마스크를 정교한 가위로 다듬다" (Granularity-Aware Mask Refiner)

비유: 사용자가 편집하고 싶은 부분을 대충 네모난 박스 (Bounding Box) 로 표시했다고 칩시다. 마치 "이 사람 머리 부분 다 잘라줘"라고 대충 지시한 거죠.
문제: 대충 표시하면 머리카락 끝이나 귀까지 잘라버리거나, 배경까지 잘라버릴 수 있습니다.
AVI-Edit 의 해결책: AI 가 이 대충 그린 선을 스스로 정밀하게 다듬어줍니다. 마치 정교한 미용사가 대충 그린 스케치를 보고, 머리카락 하나하나까지 정확하게 잘라내는 것처럼요. 사용자가 대충 표시해도 AI 가 "아, 여기는 배경이니까 살리고, 여기는 사람 머리카락이니까 잘라내야지"라고 스스로 판단해서 정교하게 편집합니다.

② 소리의 감독: "소리를 듣고 영상을 맞추는 마법사" (Self-Feedback Audio Agent)

비유: 영상 편집 중 소리를 바꿀 때, AI 가 "이제 소리를 바꿔볼까?"라고 생각하다가, "어? 이 소리가 너무 이상하네? 다시 만들어야겠다"라고 스스로 판단하고 수정하는 과정입니다.
작동 원리:
1. 분리: 원래 소리를 들어보고, "이건 배경 소리 (바람 소리), 저건 사람 목소리"로 나눕니다.
2. 생성: 사용자가 원하는 새로운 소리 (예: "개 짖는 소리"로 바꾸기) 를 만들어냅니다.
3. 혼합 & 심사: 두 소리를 섞은 뒤, **AI 심사위원 (MLLM)**이 "이거 진짜 자연스러운가? 입 모양과 소리가 딱 맞나?"를 체크합니다.
4. 수정: 만약 "아직 어색해"라고 판단되면, "목소리를 좀 더 크게 해" 혹은 "배경 소리를 줄여"라고 스스로 지시하며 다시 만듭니다.
결과: 마치 소리를 편집하는 프로듀서가 직접 녹음실에 들어가서 "다시 한 번! 더 자연스럽게!"라고 지시하는 것처럼, 소리와 영상이 완벽하게 동기화됩니다.

③ 다양한 상황 대응: "누구든, 어떤 소리든 다 바꿔줘"

이 기술은 사람 목소리뿐만 아니라, 개 짖는 소리, 자동차 엔진 소리, 물 흐르는 소리 등 모든 종류의 소리를 다룰 수 있습니다.
예를 들어, 영상 속 강아지를 고양이로 바꾸면, AI 는 강아지 울음소리를 지우고 고양이 '야옹' 소리를 자연스럽게 만들어 넣습니다.

3. 실제로 어떤 일이 가능할까요?

이 기술로 할 수 있는 재미있는 일들입니다:

목소리 바꾸기: 영화 속 배우의 대사를 다른 언어나 다른 톤으로 바꾸되, 입 모양은 원래 배우의 입 모양과 완벽하게 일치시킵니다. (더빙이 자연스럽게 되는 셈입니다.)
외모 바꾸기: 옷차림이나 헤어스타일을 바꾸되, 원래 그 사람이 말하던 목소리와 리듬은 그대로 유지합니다.
사물 바꾸기: 영상 속 개를 고양이로 바꾸면, 개 짖는 소리 대신 고양이 울음소리가 자연스럽게 들립니다.
동작 조절: 물이 흐르는 소리를 빠르게 바꾸면, 물줄기의 움직임도 AI 가 알아서 빠르게 조절해 줍니다.

4. 요약: 왜 이것이 혁신적인가요?

기존 기술은 "영상을 편집하면 소리가 깨지고, 소리를 편집하면 영상이 깨지는" 딜레마에 빠져 있었습니다.

AVI-Edit 는 "영상과 소리를 한 쌍으로 묶어서, 하나를 건드리면 다른 하나도 자연스럽게 따라오게" 만든 것입니다. 마치 쌍둥이처럼 영상이나 소리 중 하나를 만지면, 다른 하나도 자연스럽게 반응하는 마법 같은 편집기라고 보시면 됩니다.

이 기술이 상용화되면, 영화 제작자나 유튜버들은 복잡한 편집 없이도 소리와 영상이 완벽하게 맞는 고퀄리티 영상을 훨씬 쉽고 빠르게 만들 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비디오 편집 및 생성 기술은 다음과 같은 한계를 가지고 있습니다:

오디오 - 비주얼 동기화 부재: 대부분의 비디오 편집 모델은 시각적 특징에만 집중하여 원본 비디오의 오디오와 비주얼 간의 자연스러운 동기화를 깨뜨립니다.
세밀한 인스턴스 제어의 부족: 객체 단위 (Instance-level) 의 정밀한 편집이 어렵고, 특히 시간적 (Temporal) 제어 (예: 특정 시점의 이벤트 타이밍) 가 부족합니다.
입력 마스크의 부정확성: 사용자가 제공하는 마스크 (예: 바운딩 박스) 는 대개 거칠기 (Coarse) 때문에 정밀한 객체 영역을 정확히 편집하기 어렵습니다.
음성/사운드 편집의 복잡성: 대상 객체의 외관을 변경할 때 해당 객체의 음성이나 사운드를 자연스럽게 유지하거나 변환하는 기술이 부족합니다.

이 논문은 사용자가 제공한 거친 마스크와 텍스트 지시어를 바탕으로, 대상 인스턴스 (Instance) 와 그 오디오를 정밀하게 편집하면서 배경과 비대상 오디오는 보존하는 '오디오 동기화 비디오 인스턴스 편집' 프레임워크를 제안합니다.

2. 방법론 (Methodology)

제안된 프레임워크 AVI-Edit는 크게 세 가지 핵심 구성 요소로 이루어져 있습니다.

A. 오디오 동기화 비디오 백본 (Audio-Sync Video Backbone)

기반 모델: 사전 학습된 대규모 비디오 생성 모델인 Wan2.2-5B를 기반으로 구축되었습니다.
구조: 비디오 디퓨전 트랜스포머 (Diffusion Transformer) 아키텍처를 사용하며, 프레임 단위 크로스 어텐션 (Frame-wise Cross-attention) 레이어를 도입하여 오디오 토큰을 비디오 잠재 공간 (Latent space) 에 통합합니다. 이를 통해 오디오 신호가 비디오 생성의 시간적 동기화를 유도합니다.
입력: 텍스트 설명, 인스턴스 마스크, 선택적 컨텍스트 (스크리블, 포즈 등), 그리고 큐레이션된 오디오 토큰을 입력받아 편집된 비디오를 생성합니다.

B. 세밀도 인식 마스크 정제기 (Granularity-Aware Mask Refiner, GAMR)

목적: 사용자가 제공한 부정확한 마스크 (예: 바운딩 박스) 를 정밀한 인스턴스 윤곽으로 변환합니다.
정밀도 인자 (Precision Factor, $p$ ): 마스크의 정밀도 수준을 수치화 ($0 \sim P $) 하여 모델에 주입합니다.$ p=P $는 거친 마스크,$ p=0$은 정밀한 윤곽을 의미합니다.
동작 원리:
- 비디오 디퓨전 트랜스포머와 유사한 아키텍처를 사용합니다.
- 텍스트 토큰 대신 비디오 토큰을 사용하여 시각적 의미 (Visual semantics) 를 기반으로 마스크를 추론합니다.
- 정밀도 인자와 오디오 토큰을 어텐션 메커니즘에 주입하여, 이벤트 타이밍에 맞춘 정밀한 마스크 영역을 추정합니다.
- ODE(상미분방정식) 해법 과정에서 반복적으로 마스크를 정제합니다.

C. 자기 피드백 오디오 에이전트 (Self-Feedback Audio Agent)

목적: 편집된 비디오에 맞춰 고품질의 오디오를 생성하고 시간적 제어를 제공합니다.
파이프라인 (Separate-Generate-Remix-Rework):
1. 분리 (Separate): 원본 오디오에서 대상 객체의 소리를 분리하고, 배경 소음은 보존합니다.
2. 생성 (Generate): 텍스트 지시어에 따라 새로운 오디오 (예: 다른 목소리, 사운드 효과) 를 생성합니다.
3. 리믹스 (Remix): 분리된 배경 오디오와 생성된 오디오를 합칩니다.
4. 재작업 (Rework): 멀티모달 LLM (MLLM) 이 리믹스된 오디오의 품질 (자연스러움, 지시어 준수 여부 등) 을 평가합니다. 점수가 임계치 이하일 경우, MLLM 이 개선 지시어를 생성하여 분리/생성 모델을 다시 실행하는 반복 루프를 수행합니다.

D. 데이터셋 (AVISET)

모델 학습 및 평가를 위해 구축한 대규모 데이터셋입니다.
구성: 71,000 개의 학습, 1,000 개의 검증, 1,000 개의 테스트 클립 (총 197 시간 이상).
특징: 각 클립은 하나의 주요 소리 나는 인스턴스 (인간 음성 또는 비음성 사운드) 를 포함하며, 인스턴스 마스크와 장면 수준의 텍스트 설명이 상세히 주석 처리되어 있습니다.

3. 주요 기여 (Key Contributions)

AVI-Edit 프레임워크: 세밀한 공간적 (Spatial) 및 시간적 (Temporal) 제어가 가능한 오디오 동기화 비디오 인스턴스 편집 프레임워크를 처음 제안했습니다.
세밀도 인식 마스크 정제기 (GAMR): 사용자의 거친 입력을 정밀한 인스턴스 마스크로 변환하여 정확한 공간적 제어를 가능하게 하는 새로운 모듈을 개발했습니다.
자기 피드백 오디오 에이전트: 분리 - 생성 - 리믹스 - 재작업 사이클을 통해 고품질의 오디오 가이드를 생성하고, 이를 통해 비디오의 이벤트 타이밍을 정밀하게 제어합니다.
AVISET 데이터셋: 인스턴스 중심의 대응 관계와 포괄적인 주석을 가진 대규모 오디오 - 비디오 편집 데이터셋을 공개했습니다.

4. 실험 결과 (Results)

정량적 평가: AVISET 과 AvED-Bench 데이터셋에서 기존 최첨단 (SOTA) 방법들 (AvED, Ovi, VACE-Foley 등) 보다 시각적 품질 (FVD, IS), 텍스트 정합성, 오디오 - 비디오 동기화 (Sync-C, Sync-D) 측면에서 모든 지표에서 우수한 성능을 보였습니다.
사용자 선호도 연구: 오디오 - 비디오 동기화 (AVS), 텍스트 정합성 (TA), 전체 선호도 (OP) 항목에서 다른 방법론들을 압도적으로 우세하게 차지했습니다 (약 45~49% 선호도).
오디오 품질: 자기 피드백 에이전트가 생성한 오디오의 경우, 'Acceptable' 또는 'Perfect' 등급을 받은 비율이 85%~91% 이상으로 매우 높았습니다.
비교: 기존 방법들은 깜빡임 (Flickering) 이나 배경 왜곡, 음성 합성 실패 등의 문제를 보인 반면, AVI-Edit 은 자연스러운 편집 결과를 생성했습니다.

5. 의의 및 중요성 (Significance)

새로운 편집 패러다임: 단순히 영상을 수정하는 것을 넘어, 소리와 영상이 완벽하게 동기화된 상태에서 특정 객체만을 대상으로 한 정밀한 편집을 가능하게 합니다.
실용적 응용: 화자의 음성 변경, 등장인물의 외모 변경, 사물 카테고리 변환 (예: 개를 고양이로), 오디오만으로 동적 요소 조절 (예: 물줄기 속도) 등 다양한 시나리오에 적용 가능합니다.
기술적 진보: 거친 사용자 입력을 정밀한 편집 결과로 변환하는 '마스크 정제'와, 오디오 품질을 스스로 검증하고 개선하는 '자기 피드백' 메커니즘은 향후 멀티모달 생성 모델의 방향성을 제시합니다.
확장성: 인스턴스 삽입/제거, 장편 비디오 편집, 오디오 동기화 생성 등 다양한 확장 응용 가능성을 보여주었습니다.

이 논문은 오디오와 비디오의 통합된 이해를 바탕으로, 사용자가 직관적으로 원하는 대로 콘텐츠를 생성하고 편집할 수 있는 강력한 도구를 제공한다는 점에서 의의가 큽니다.