Each language version is independently generated for its own context, not a direct translation.

🎥 키위-에디트 (Kiwi-Edit): "이걸로 바꿔줘!"라고 말하고, "이걸로!"라고 보여주는 영상 편집의 미래

안녕하세요! 오늘 소개해 드릴 논문은 **영상 편집의 새로운 시대를 연 '키위-에디트 (Kiwi-Edit)'**에 대한 이야기입니다.

기존의 영상 편집 AI 는 "배경을 눈으로 덮어줘"라고 말하면 대충 눈이 내리는 장면을 만들어주지만, "이 특정 눈꽃 무늬로 바꿔줘"라고 하면 그걸 정확히 따라주지 못했습니다. 마치 요리사가 "맛있는 국을 만들어줘"라고 하면 대충 끓여주지만, "어머니가 해주던 그 국"이라고 해도 그 맛을 완벽히 재현하지 못하는 것과 비슷하죠.

이 논문은 텍스트 (말) 만으로는 부족하다는 점을 깨닫고, **참고 이미지 (시각적 예시)**까지 함께 보여주는 새로운 방식을 개발했습니다.

1. 문제점: "말"만으로는 부족해요 🗣️🚫

기존 AI 는 자연어 (말) 로만 명령을 받았습니다. 하지만 "이 옷을 입혀줘"라고 말하면 AI 는 "어떤 옷?"이라고 헤매곤 했죠.

비유: 친구에게 "내 사진에 저기 있는 강아지 대신 이 강아지를 넣어줘"라고 말하고 싶지만, AI 는 "강아지"라는 말만 듣고 임의의 강아지를 넣어버리는 상황입니다.

2. 해결책: "이거!"라고 보여주면 돼요 🖼️✅

키위-에디트는 **명령 (텍스트) + 참고 이미지 (예시)**를 동시에 받아들입니다.

비유: 요리사가 "이 레시피 (명령) 에다가, **이 사진 (참고 이미지)**에 있는 것처럼 생김새와 맛을 똑같이 만들어줘"라고 요청하는 것과 같습니다. AI 는 이제 "아, 그 강아지 모양을 그대로 가져와야구나!"라고 정확히 이해합니다.

3. 핵심 기술 1: "데이터 공장" (RefVIE) 🏭

문제는 이런 '명령 + 참고 이미지 + 결과 영상' 쌍을 가진 데이터가 너무 적다는 것이었습니다. 사람이 일일이 만들려면 너무 비싸고 시간이 걸리죠.

해결: 연구팀은 이미지 생성 AI 를 이용해 '가상의 데이터 공장'을 지었습니다.
1. 기존에 있던 '명령 + 영상' 데이터를 가져옵니다.
2. AI 가 "어떤 부분을 고쳐야 할지"를 분석합니다.
3. 그 부분을 잘라내고, "고쳐진 모습"을 참고할 가상의 이미지를 AI 가 스스로 만들어냅니다.
4. 이렇게 **47 만 개 (477K)**의 고품질 학습 데이터를 자동으로 만들어냈습니다.
비유: 요리 학교에서 학생들에게 "이 요리를 해봐"라고만 시키지 않고, "이 요리를 해보고, 이런 맛과 모양이 나는 사진을 참고해서 만들어봐"라고 가르치는 교재를 47 만 권이나 자동으로 출판한 셈입니다.

4. 핵심 기술 2: "키위-에디트"라는 마법사 🧙‍♂️

만들어진 데이터를 바탕으로 새로운 AI 모델인 키위-에디트를 만들었습니다. 이 모델은 두 가지 뇌를 가지고 있습니다.

언어 뇌 (MLLM): "배경을 겨울로 바꿔줘"라는 말을 이해합니다.
시각 뇌 (DiT): "이 사진의 겨울 풍경"을 보고 그 느낌을 영상에 옮깁니다.

이 두 뇌는 두 가지 연결고리로 서로 소통합니다.

질문 연결고리 (Query Connector): "무엇을 바꿀지"에 대한 핵심 아이디어를 뽑아냅니다.
잠재 연결고리 (Latent Connector): "어떻게 바꿀지"에 대한 구체적인 질감과 색상을 참고 이미지에서 가져옵니다.

5. 학습 방법: 3 단계 훈련 과정 📚

이 마법사를 가르칠 때, 바로 복잡한 작업을 시키지 않고 단계별로 가르쳤습니다.

1 단계 (언어 이해): 말과 영상의 관계를 먼저 익힙니다. (명령만 듣고 영상 편집하기)
2 단계 (기본 실습): 다양한 영상 편집 작업을 통해 실력을 다집니다.
3 단계 (참고 이미지 활용): 이제 우리가 만든 '참고 이미지' 데이터를 활용해, "이 사진처럼"이라는 요청을 완벽하게 따르는 법을 배웁니다.

6. 결과: 얼마나 잘할까요? 🏆

실험 결과, 키위-에디트는 기존 최고의 모델들보다 훨씬 잘했습니다.

배경 변경: "이 사진의 겨울 배경으로 바꿔줘"라고 하면, 눈이 내리는 방식까지 참고 이미지와 거의 똑같이 재현합니다.
객체 교체: "이 사람의 옷을 이 사진의 옷으로 바꿔줘"라고 하면, 옷의 주름, 빛 반사, 질감까지 완벽하게 옮겨줍니다.
비유: 다른 모델들이 "눈이 내리는 영상"을 만들었다면, 키위-에디트는 "참고 이미지 속 눈이 내리는 정확한 방식으로 영상을 만들어냅니다."

🌟 요약

키위-에디트는 "말만으로는 부족하다"는 점을 깨닫고, 참고 이미지를 함께 보여주는 방식으로 영상 편집을 혁신했습니다. 이를 위해 AI 가 스스로 47 만 개의 학습 데이터를 만들어냈고, 이를 통해 명령과 시각적 예시를 동시에 완벽하게 이해하는 AI를 개발했습니다.

이제 우리는 "이걸로 바꿔줘"라고 말하면서, "이걸로!"라고 사진을 보여주면, AI 가 우리가 원하는 정확한 모습으로 영상을 만들어줄 시대가 열린 것입니다! 🎬✨

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

🎥 키위-에디트 (Kiwi-Edit): "이걸로 바꿔줘!"라고 말하고, "이걸로!"라고 보여주는 영상 편집의 미래

1. 문제점: "말"만으로는 부족해요 🗣️🚫

2. 해결책: "이거!"라고 보여주면 돼요 🖼️✅

3. 핵심 기술 1: "데이터 공장" (RefVIE) 🏭

4. 핵심 기술 2: "키위-에디트"라는 마법사 🧙‍♂️

5. 학습 방법: 3 단계 훈련 과정 📚

6. 결과: 얼마나 잘할까요? 🏆

🌟 요약

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

A. RefVIE 데이터셋 구축 (Scalable Data Generation Pipeline)

B. Kiwi-Edit 아키텍처

C. 평가 벤치마크 (RefVIE-Bench)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

🎥 키위-에디트 (Kiwi-Edit): "이걸로 바꿔줘!"라고 말하고, "이걸로!"라고 보여주는 영상 편집의 미래

1. 문제점: "말"만으로는 부족해요 🗣️🚫

2. 해결책: "이거!"라고 보여주면 돼요 🖼️✅

3. 핵심 기술 1: "데이터 공장" (RefVIE) 🏭

4. 핵심 기술 2: "키위-에디트"라는 마법사 🧙‍♂️

5. 학습 방법: 3 단계 훈련 과정 📚

6. 결과: 얼마나 잘할까요? 🏆

🌟 요약

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

A. RefVIE 데이터셋 구축 (Scalable Data Generation Pipeline)

B. Kiwi-Edit 아키텍처

C. 평가 벤치마크 (RefVIE-Bench)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics