FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

이 논문은 편집 영역을 식별하여 주입 강도를 조절하는 '편집 인지 주입 (Editing-aware Injection)' 기법을 도입하고, 이를 정류 흐름 (Rectified Flow) 모델에 적용하여 미세 조정 없이 고품질의 영상이동 편집을 가능하게 하는 'FREE-Edit' 프레임워크를 제안합니다.

Maomao Li, Yunfei Liu, Yu Li

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "비디오 편집은 왜 이렇게 어렵죠?"

비디오를 편집할 때, 우리는 보통 첫 번째 프레임 (첫 장) 만을 수정하고 싶어 합니다. 예를 들어, 바다에 있는 배를 '비행기'로 바꾸고 싶다면, 첫 장면을 비행기로 바꾼 뒤 나머지 장면들도 그 비행기가 날아가는 모습이어야 합니다.

하지만 기존 기술들은 두 가지 큰 실수를 저지르곤 했습니다.

  • 실수 1: 너무 많이 가져와서 망침 (Vanilla Injection)
    • 비유: 친구가 사진을 고쳐서 보내줬는데, 그 친구가 "내 사진의 배경도 다 가져와서 네 사진에 붙여줘!"라고 해서, 고친 비행기 주변에 원래 바다 배경이 섞여서 엉망이 된 경우입니다.
    • 결과: 고친 부분 (비행기) 과 원래 부분 (바다) 이 섞여서 어색해지고, 비행기가 바다에 떠다니는 기괴한 모습이 됩니다.
  • 실수 2: 너무 적게 가져와서 멈춤 (No Injection)
    • 비유: 고친 비행기만 가져와서 붙였는데, 비행기가 제자리에서 꼼짝도 안 하거나, 배경이 흔들리는 바람에 비행기가 공중에 떠 있는 것만 보입니다.
    • 결과: 고친 내용은 잘 변했지만, 비디오의 움직임 (파도, 카메라 흔들림 등) 이 사라져서 정지된 사진처럼 보입니다.

2. 해결책: "FREE-Edit"과 "REE" 기술

이 연구팀은 **"어디를 고쳤는지 정확히 알고, 고친 곳은 건드리지 않고, 고치지 않은 곳만 원래 비디오의 움직임을 빌려오자"**는 아이디어를 냈습니다.

이를 위해 **'REE (Editing-awaRE, 편집을 아는)'**라는 기술을 개발했습니다.

🌟 핵심 비유: "투명한 보호막과 스텔스 모드"

  1. 고친 곳을 찾아내다 (마스크 생성):
    • 원본 사진과 고친 사진을 비교해서, **"어디가 바뀐 곳인가?"**를 자동으로 찾아냅니다. (예: 배가 있던 자리만 빨간색으로 표시)
  2. 움직임을 따라가다 (광학 흐름):
    • 비디오는 계속 움직입니다. 첫 장에서 바뀐 부분이 두 번째 장, 세 번째 장으로 어떻게 이동할지 **광학 흐름 (Optical Flow)**이라는 기술을 써서 추적합니다. 마치 "저기 빨간색 표시가 있는 배가 파도 따라 저쪽으로 이동했구나!"라고 예측하는 것입니다.
  3. 스마트한 혼합 (REE 주입):
    • 이제부터가 핵심입니다. 비디오를 만들 때, AI 는 두 가지 정보를 섞어서 만듭니다.
      • A 정보: 고친 첫 장면 (비행기)
      • B 정보: 원본 비디오의 움직임 (파도, 배경)
    • 기존 방식: A 와 B 를 50:50 으로 무조건 섞음. (고친 비행기에 바다 배경이 섞여버림)
    • FREE-Edit 방식 (REE):
      • 고친 곳 (비행기): B 정보 (원본) 를 완전히 차단합니다. (보호막 씌우기) 오직 A 정보 (고친 비행기) 만 남깁니다.
      • 고치지 않은 곳 (바다/배경): B 정보 (원본) 를 완전히 가져옵니다.
    • 결과: 비행기는 고친 모습 그대로 날아가고, 바다는 원래 파도 소리와 함께 자연스럽게 움직입니다.

3. 왜 이 기술이 특별한가요?

  • 학습 불필요 (Zero-shot): 이 기술은 새로운 AI 모델을 가르치거나 (학습) 많은 데이터를 필요로 하지 않습니다. 이미 만들어진 강력한 AI 모델 (LTX-Video 등) 을 그대로 가져와서, 위와 같은 '스마트한 혼합 규칙'만 적용하면 됩니다.
  • 빠르고 정확함: 기존 방법들은 비디오가 길어질수록 흐트러지거나, 고친 부분이 사라지는 문제가 있었지만, 이 방법은 긴 비디오에서도 일관된 움직임을 유지합니다.
  • 다양한 편집 가능: 물체를 없애기, 추가하기, 스타일 바꾸기 등 다양한 작업을 한 장의 이미지로만 가능합니다.

4. 결론: "비디오 편집의 새로운 시대"

이 논문은 **"비디오 편집은 첫 장면을 고치는 것으로 끝나는 게 아니라, 그 고친 부분이 어떻게 움직여야 할지 '지혜롭게' 판단해야 한다"**는 것을 증명했습니다.

마치 명화 복원을 할 때, 손상된 부분만 정밀하게 고치고 나머지 부분은 원래 화가의 붓터치를 그대로 살리는 것과 같습니다. FREE-Edit은 바로 그 '지혜로운 판단'을 자동으로 해주는 도구로, 앞으로 우리가 비디오를 편집할 때 훨씬 더 쉽고 자연스럽게 원하는 대로 만들 수 있게 해줄 것입니다.