Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

이 논문은 사용자가 제공한 대략적인 마스크를 정밀한 인스턴스 수준으로 개선하는 그레들리티 인식 마스크 리파이너와 고품질 오디오 안내를 위한 자기 피드백 오디오 에이전트를 도입하여, 오디오와 비디오의 동기화를 유지하면서 정밀한 인스턴스 편집을 가능하게 하는 AVI-Edit 프레임워크를 제안합니다.

Haojie Zheng, Shuchen Weng, Jingqi Liu, Siqi Yang, Boxin Shi, Xinlong Wang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 AVI-Edit이라는 새로운 기술을 소개합니다. 쉽게 말해, **"영상을 보고 소리를 듣고, 원하는 대로 캐릭터나 사물을 바꾸면서도 소리와 영상이 자연스럽게 딱 맞도록 만들어주는 마법 같은 도구"**입니다.

기존의 영상 편집 기술들은 소리를 무시하거나, 소리를 바꾸면 입 모양이 안 맞거나, 사물을 바꾸면 배경이 깨지는 문제가 있었습니다. AVI-Edit 는 이 모든 문제를 해결합니다.

이 기술을 일상적인 비유로 설명해 드릴게요.


1. AVI-Edit 가 해결하는 문제: "소리와 영상이 따로 노는 상황"

지금까지 영상 편집기를 썼다고 상상해 보세요.

  • 상황: 영화 속 주인공의 옷을 빨간색으로 바꾸고 싶어요.
  • 기존 기술의 문제: 옷은 빨간색으로 바뀌었는데, 주인공이 말하던 목소리가 사라지거나, 입 모양이 말과 안 맞아서 이상해 보일 수 있습니다. 마치 더미 인형 (가짜 사람) 에 목소리를 입혔는데, 입이 움직이지 않는 것처럼 어색하죠.

AVI-Edit 는 "옷을 바꾸면 목소리도 자연스럽게 따라오고, 입 모양도 완벽하게 맞춰주는" 기술입니다.

2. AVI-Edit 의 핵심 마법 3 가지

이 기술은 세 가지 '도구'를 조합해서 작동합니다.

① 정밀한 가위: "거친 마스크를 정교한 가위로 다듬다" (Granularity-Aware Mask Refiner)

  • 비유: 사용자가 편집하고 싶은 부분을 대충 네모난 박스 (Bounding Box) 로 표시했다고 칩시다. 마치 "이 사람 머리 부분 다 잘라줘"라고 대충 지시한 거죠.
  • 문제: 대충 표시하면 머리카락 끝이나 귀까지 잘라버리거나, 배경까지 잘라버릴 수 있습니다.
  • AVI-Edit 의 해결책: AI 가 이 대충 그린 선을 스스로 정밀하게 다듬어줍니다. 마치 정교한 미용사가 대충 그린 스케치를 보고, 머리카락 하나하나까지 정확하게 잘라내는 것처럼요. 사용자가 대충 표시해도 AI 가 "아, 여기는 배경이니까 살리고, 여기는 사람 머리카락이니까 잘라내야지"라고 스스로 판단해서 정교하게 편집합니다.

② 소리의 감독: "소리를 듣고 영상을 맞추는 마법사" (Self-Feedback Audio Agent)

  • 비유: 영상 편집 중 소리를 바꿀 때, AI 가 "이제 소리를 바꿔볼까?"라고 생각하다가, "어? 이 소리가 너무 이상하네? 다시 만들어야겠다"라고 스스로 판단하고 수정하는 과정입니다.
  • 작동 원리:
    1. 분리: 원래 소리를 들어보고, "이건 배경 소리 (바람 소리), 저건 사람 목소리"로 나눕니다.
    2. 생성: 사용자가 원하는 새로운 소리 (예: "개 짖는 소리"로 바꾸기) 를 만들어냅니다.
    3. 혼합 & 심사: 두 소리를 섞은 뒤, **AI 심사위원 (MLLM)**이 "이거 진짜 자연스러운가? 입 모양과 소리가 딱 맞나?"를 체크합니다.
    4. 수정: 만약 "아직 어색해"라고 판단되면, "목소리를 좀 더 크게 해" 혹은 "배경 소리를 줄여"라고 스스로 지시하며 다시 만듭니다.
  • 결과: 마치 소리를 편집하는 프로듀서가 직접 녹음실에 들어가서 "다시 한 번! 더 자연스럽게!"라고 지시하는 것처럼, 소리와 영상이 완벽하게 동기화됩니다.

③ 다양한 상황 대응: "누구든, 어떤 소리든 다 바꿔줘"

  • 이 기술은 사람 목소리뿐만 아니라, 개 짖는 소리, 자동차 엔진 소리, 물 흐르는 소리 등 모든 종류의 소리를 다룰 수 있습니다.
  • 예를 들어, 영상 속 강아지를 고양이로 바꾸면, AI 는 강아지 울음소리를 지우고 고양이 '야옹' 소리를 자연스럽게 만들어 넣습니다.

3. 실제로 어떤 일이 가능할까요?

이 기술로 할 수 있는 재미있는 일들입니다:

  • 목소리 바꾸기: 영화 속 배우의 대사를 다른 언어나 다른 톤으로 바꾸되, 입 모양은 원래 배우의 입 모양과 완벽하게 일치시킵니다. (더빙이 자연스럽게 되는 셈입니다.)
  • 외모 바꾸기: 옷차림이나 헤어스타일을 바꾸되, 원래 그 사람이 말하던 목소리와 리듬은 그대로 유지합니다.
  • 사물 바꾸기: 영상 속 개를 고양이로 바꾸면, 개 짖는 소리 대신 고양이 울음소리가 자연스럽게 들립니다.
  • 동작 조절: 물이 흐르는 소리를 빠르게 바꾸면, 물줄기의 움직임도 AI 가 알아서 빠르게 조절해 줍니다.

4. 요약: 왜 이것이 혁신적인가요?

기존 기술은 "영상을 편집하면 소리가 깨지고, 소리를 편집하면 영상이 깨지는" 딜레마에 빠져 있었습니다.

AVI-Edit 는 "영상과 소리를 한 쌍으로 묶어서, 하나를 건드리면 다른 하나도 자연스럽게 따라오게" 만든 것입니다. 마치 쌍둥이처럼 영상이나 소리 중 하나를 만지면, 다른 하나도 자연스럽게 반응하는 마법 같은 편집기라고 보시면 됩니다.

이 기술이 상용화되면, 영화 제작자나 유튜버들은 복잡한 편집 없이도 소리와 영상이 완벽하게 맞는 고퀄리티 영상을 훨씬 쉽고 빠르게 만들 수 있게 될 것입니다.