FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "비디오 편집은 왜 이렇게 어렵죠?"

비디오를 편집할 때, 우리는 보통 첫 번째 프레임 (첫 장) 만을 수정하고 싶어 합니다. 예를 들어, 바다에 있는 배를 '비행기'로 바꾸고 싶다면, 첫 장면을 비행기로 바꾼 뒤 나머지 장면들도 그 비행기가 날아가는 모습이어야 합니다.

하지만 기존 기술들은 두 가지 큰 실수를 저지르곤 했습니다.

실수 1: 너무 많이 가져와서 망침 (Vanilla Injection)
- 비유: 친구가 사진을 고쳐서 보내줬는데, 그 친구가 "내 사진의 배경도 다 가져와서 네 사진에 붙여줘!"라고 해서, 고친 비행기 주변에 원래 바다 배경이 섞여서 엉망이 된 경우입니다.
- 결과: 고친 부분 (비행기) 과 원래 부분 (바다) 이 섞여서 어색해지고, 비행기가 바다에 떠다니는 기괴한 모습이 됩니다.
실수 2: 너무 적게 가져와서 멈춤 (No Injection)
- 비유: 고친 비행기만 가져와서 붙였는데, 비행기가 제자리에서 꼼짝도 안 하거나, 배경이 흔들리는 바람에 비행기가 공중에 떠 있는 것만 보입니다.
- 결과: 고친 내용은 잘 변했지만, 비디오의 움직임 (파도, 카메라 흔들림 등) 이 사라져서 정지된 사진처럼 보입니다.

2. 해결책: "FREE-Edit"과 "REE" 기술

이 연구팀은 **"어디를 고쳤는지 정확히 알고, 고친 곳은 건드리지 않고, 고치지 않은 곳만 원래 비디오의 움직임을 빌려오자"**는 아이디어를 냈습니다.

이를 위해 **'REE (Editing-awaRE, 편집을 아는)'**라는 기술을 개발했습니다.

🌟 핵심 비유: "투명한 보호막과 스텔스 모드"

고친 곳을 찾아내다 (마스크 생성):
- 원본 사진과 고친 사진을 비교해서, **"어디가 바뀐 곳인가?"**를 자동으로 찾아냅니다. (예: 배가 있던 자리만 빨간색으로 표시)
움직임을 따라가다 (광학 흐름):
- 비디오는 계속 움직입니다. 첫 장에서 바뀐 부분이 두 번째 장, 세 번째 장으로 어떻게 이동할지 **광학 흐름 (Optical Flow)**이라는 기술을 써서 추적합니다. 마치 "저기 빨간색 표시가 있는 배가 파도 따라 저쪽으로 이동했구나!"라고 예측하는 것입니다.
스마트한 혼합 (REE 주입):
- 이제부터가 핵심입니다. 비디오를 만들 때, AI 는 두 가지 정보를 섞어서 만듭니다.
  - A 정보: 고친 첫 장면 (비행기)
  - B 정보: 원본 비디오의 움직임 (파도, 배경)
- 기존 방식: A 와 B 를 50:50 으로 무조건 섞음. (고친 비행기에 바다 배경이 섞여버림)
- FREE-Edit 방식 (REE):
  - 고친 곳 (비행기): B 정보 (원본) 를 완전히 차단합니다. (보호막 씌우기) 오직 A 정보 (고친 비행기) 만 남깁니다.
  - 고치지 않은 곳 (바다/배경): B 정보 (원본) 를 완전히 가져옵니다.
- 결과: 비행기는 고친 모습 그대로 날아가고, 바다는 원래 파도 소리와 함께 자연스럽게 움직입니다.

3. 왜 이 기술이 특별한가요?

학습 불필요 (Zero-shot): 이 기술은 새로운 AI 모델을 가르치거나 (학습) 많은 데이터를 필요로 하지 않습니다. 이미 만들어진 강력한 AI 모델 (LTX-Video 등) 을 그대로 가져와서, 위와 같은 '스마트한 혼합 규칙'만 적용하면 됩니다.
빠르고 정확함: 기존 방법들은 비디오가 길어질수록 흐트러지거나, 고친 부분이 사라지는 문제가 있었지만, 이 방법은 긴 비디오에서도 일관된 움직임을 유지합니다.
다양한 편집 가능: 물체를 없애기, 추가하기, 스타일 바꾸기 등 다양한 작업을 한 장의 이미지로만 가능합니다.

4. 결론: "비디오 편집의 새로운 시대"

이 논문은 **"비디오 편집은 첫 장면을 고치는 것으로 끝나는 게 아니라, 그 고친 부분이 어떻게 움직여야 할지 '지혜롭게' 판단해야 한다"**는 것을 증명했습니다.

마치 명화 복원을 할 때, 손상된 부분만 정밀하게 고치고 나머지 부분은 원래 화가의 붓터치를 그대로 살리는 것과 같습니다. FREE-Edit은 바로 그 '지혜로운 판단'을 자동으로 해주는 도구로, 앞으로 우리가 비디오를 편집할 때 훨씬 더 쉽고 자연스럽게 원하는 대로 만들 수 있게 해줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 이미지 기반 비디오 편집 (Image-driven Video Editing) 은 원본 비디오의 첫 번째 프레임을 수정한 후, 그 수정 내용을 나머지 프레임으로 전파하는 것을 목표로 합니다. 기존 방법들은 주로 "역전파 후 편집 (Inversion-then-editing)" 파이프라인을 사용하며, 운동 (Motion) 과 레이아웃을 유지하기 위해 원본 비디오의 특징을 주입 (Injection) 하는 방식을 채택했습니다.

그러나 기존 방식에는 다음과 같은 근본적인 한계가 존재합니다:

기존 주입 방식 (Vanilla Injection) 의 문제: 모든 토큰 (Token) 에 대해 동일한 강도로 특징을 주입합니다. 이는 수정된 영역 (예: 객체 교체) 에도 원본의 특징이 과도하게 주입되어 의미 충돌 (Semantic Conflict) 이 발생하거나, 반대로 수정되지 않은 영역에서는 운동 정보가 부족해지는 결과를 초래합니다.
Rectified Flow (RF) 모델의 부재: 최근 강력한 성능을 보이는 Rectified Flow 기반 이미지 - 비디오 (I2V) 모델들이 등장했으나, 이를 활용한 이미지 기반 비디오 편집 연구는 거의 이루어지지 않았습니다.
기존 방법들의 한계: 미세 조정 (Fine-tuning) 이 필요하거나, 편집된 객체의 자연스러운 운동을 생성하지 못하며, 시간 및 계산 자원이 많이 소요되는 문제가 있습니다.

2. 제안 방법론 (Methodology)

저자들은 FREE-Edit라는 새로운 프레임워크를 제안하며, 그 핵심은 편집 인식 (Editing-awaRE, REE) 특징 주입 기법에 있습니다.

가. 전체 파이프라인 (Inversion-then-Editing)

역전파 (Inversion): 원본 비디오를 사전 훈련된 RF 모델 (LTX-Video) 을 사용하여 노이즈 잠재 공간으로 역전파합니다.
편집 (Editing): 수정된 첫 번째 프레임을 조건으로 사용하여 역전파된 노이즈를 다시 디노이징 (Denoising) 하여 편집된 비디오를 생성합니다.

나. REE (Editing-awaRE) 주입 메커니즘

기존의 일괄 주입 방식 대신, 각 토큰의 편집 정도에 따라 주입 강도를 적응적으로 조절하는 방식을 도입합니다.

조절 가중치 (Modulation Weight, $\lambda$ ) 설계:
- 원본 프레임과 편집된 첫 번째 프레임의 픽셀 차이를 계산하여 편집 마스크 (Editing Mask) 를 생성합니다.
- 생성된 마스크에 광학 흐름 (Optical Flow) 을 적용하여 전체 비디오 프레임에 걸쳐 편집 영역을 추적 (Warping) 합니다.
- 이 추적된 마스크를 기반으로 각 토큰에 대한 조절 가중치 $\lambda$ $λ$ 를 계산합니다.
  - 편집 영역: $\lambda = 0$ (주입 차단) $\rightarrow$ 수정된 콘텐츠가 유지됨.
  - 비편집 영역: $\lambda = 1$ (주입 활성화) $\rightarrow$ 원본의 운동 및 레이아웃 정보가 주입됨.
수식적 구현:
- 편집 과정의 쿼리 ( $\tilde{Q}$ ) 와 키 ( $\tilde{K}$ ) 와 재구성 과정의 쿼리 ( $Q$ ) 와 키 ( $K$ ) 를 선형 보간합니다:
  $\bar{Q} = \lambda Q + (1-\lambda)\tilde{Q}$
  $\bar{K} = \lambda K + (1-\lambda)\tilde{K}$
- 이를 통해 편집된 영역에서는 원본의 특징이 유입되지 않도록 하여 의미 충돌을 방지하고, 비편집 영역에서는 원본의 운동을 자연스럽게 유지합니다.

다. 훈련 불필요 (Training-free)

모델의 미세 조정 (Fine-tuning) 이나 추가 학습 없이, 사전 훈련된 RF 모델 (LTX-Video) 에 REE 주입 모듈만 적용하여 작동합니다.

3. 주요 기여 (Key Contributions)

FREE-Edit 프레임워크 제안: Rectified Flow 모델을 기반으로 한 훈련 불필요 (Zero-shot) 이미지 기반 비디오 편집 프레임워크를 최초로 제안했습니다.
REE 주입 기법 개발: 광학 흐름을 활용하여 편집 영역을 추적하고, 해당 영역에서는 특징 주입을 차단하는 적응형 조절 가중치 ( $\lambda$ ) 를 설계했습니다. 이는 기존 방법들의 의미 충돌 문제를 해결합니다.
성능 입증: 다양한 편집 시나리오 (객체 추가/제거, 스타일 전이, 배경 변경 등) 에서 기존 최첨단 방법들보다 우수한 시각적 일관성과 운동 보존 능력을 입증했습니다.

4. 실험 결과 (Results)

정성적 평가 (Qualitative):
- Vanilla Injection: 편집된 객체와 원본 배경 간의 의미 충돌로 인해 원치 않는 콘텐츠 누출 (Content Leakage) 이 발생했습니다.
- No Injection: 운동 정보가 부족하여 비디오의 움직임이 불안정했습니다.
- FREE-Edit (REE): 편집된 첫 번째 프레임의 외관을 유지하면서도 원본 비디오의 자연스러운 운동을 완벽하게 보존했습니다.
정량적 평가 (Quantitative):
- I2V-Edit-Benchmark: 60 개의 비디오로 구성된 자체 벤치마크에서 CLIP Score (편집 충실도) 와 Warp Error (시간적 일관성) 모두에서 기존 방법 (AnyV2V, VideoShop, I2VEdit, Go-with-the-Flow 등) 보다 최상의 성능을 기록했습니다.
- 비편집 영역 보존: 비편집 영역의 품질을 측정하는 SSIM, PSNR, LPIPS 등 모든 지표에서 가장 높은 점수를 받았습니다.
사용자 연구 (User Study): 편집 일관성과 전체 품질 측면에서 다른 모든 경쟁 방법보다 높은 승률 (Win Rate) 을 기록했습니다.
속도: LTX-Video-2B 의 실시간 성능을 활용하여, 미세 조정이 필요한 다른 방법들보다 훨씬 빠른 처리 속도를 달성했습니다.

5. 의의 및 한계 (Significance & Limitations)

의의:
- Rectified Flow 모델의 강력한 생성 능력을 비디오 편집 영역으로 확장했습니다.
- 훈련 없이도 높은 품질의 편집이 가능하여 접근성을 높였습니다.
- 편집 영역과 비편집 영역을 정밀하게 구분하여 주입하는 전략은 향후 비디오 편집 연구에 중요한 통찰을 제공합니다.
한계:
- 새로운 객체의 운동 생성 불가: 원본 비디오에 존재하지 않는 새로운 객체 (예: 거북이 추가) 를 삽입할 경우, 해당 객체의 자연스러운 운동 궤적을 생성하지 못합니다. 이는 원본 비디오에 해당 운동 정보가 없기 때문이며, 향후 연구 과제로 남겼습니다.

결론

FREE-Edit 는 광학 흐름 기반의 편집 영역 추적과 적응형 특징 주입을 결합하여, 기존 방법들이 겪던 의미 충돌과 운동 손실 문제를 해결한 획기적인 이미지 기반 비디오 편집 방법론입니다. 이는 훈련 불필요하면서도 고품질의 편집 결과를 제공하여 비디오 생성 및 편집 분야의 새로운 기준을 제시합니다.