Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

이 논문은 오토레거시 비디오 확산 모델에서 발생하는 잠재 공간의 분포 편차와 맥락 간섭 문제를 해결하기 위해, 학습 없이도 사용자가 언제든지 원하는 대상을 자유롭게 변형하고 조작할 수 있는 'DragStream'이라는 새로운 스트리밍 드래그 기반 비디오 조작 프레임워크를 제안합니다.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 드래그스트림 (DragStream): 비디오를 '드래그'로 실시간 수정하는 마법 같은 기술

이 논문은 **"드래그스트림 (DragStream)"**이라는 새로운 기술을 소개합니다. 쉽게 말해, 비디오를 만들면서 사용자가 마우스로 물체를 드래그 (끌어당기기) 하듯 실시간으로 수정할 수 있게 해주는 기술입니다.

기존의 비디오 생성 AI 는 한 번 만들어지면 수정하기가 매우 어렵거나, 수정하려면 처음부터 다시 만들어야 했습니다. 하지만 이 기술은 **"생성되는 도중에도 언제든지 원하는 대로 움직일 수 있다"**는 혁신을 가져왔습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 아이디어: "생성 중에도 손으로 잡아서 움직여!" (REVEL)

기존의 비디오 AI 는 마치 완성된 영화를 보는 것과 같습니다. "이 장면을 고쳐줘!"라고 해도, 영화가 이미 찍혔으니 다시 촬영 (생성) 을 해야 합니다.

하지만 드래그스트림실시간으로 그리는 화가와 같습니다.

  • 화가 (AI) 가 캔버스에 그림을 그리고 있을 때, 당신이 "저기 있는 고양이 귀를 좀 위로 올려줘"라고 말하거나, 손가락으로 귀를 드래그하면 화가는 즉시 그 부분을 수정하고 그 다음 장면을 자연스럽게 이어 그립니다.
  • 이 기술은 이동 (Translation), 변형 (Deformation), 회전 (Rotation) 등 다양한 드래그 작업을 실시간으로 지원합니다.

2. 왜 어려웠을까요? (두 가지 큰 장벽)

이 기술을 만들기 위해 연구자들은 두 가지 거대한 장애물을 마주했습니다.

🌪️ 장벽 1: "나비 효과"로 인한 혼란 (잠재 공간 분포 이탈)

  • 비유: 비디오 생성은 마치 거대한 퍼즐을 맞추는 과정입니다. 한 조각을 살짝 움직이면 (드래그), 그 영향이 퍼즐 전체로 퍼져나갑니다.
  • 문제: 사용자가 물체를 드래그할 때, AI 가 그 영향을 제대로 처리하지 못하면 퍼즐 조각들이 점점 엉켜서 완전히 다른 그림이 되어버립니다. 예를 들어, 고양이를 움직이려는데 고양이가 갑자기 개로 변하거나 색이 변해버리는 '할루시네이션'이 발생합니다.
  • 결과: 드래그를 계속하면 AI 가 "아, 더 이상 뭐가 뭔지 모르겠어"라고 포기하고 생성이 멈춰버립니다.

👻 장벽 2: "유령" 같은 간섭 (컨텍스트 간섭)

  • 비유: 비디오는 연속된 장면입니다. 앞장면의 정보가 뒷장면에 영향을 줍니다.
  • 문제: 사용자가 물체를 드래그할 때, AI 가 앞장면의 정보 (예: 토끼 귀가 두 개였던 것) 를 너무 강하게 기억하면, 드래그를 하더라도 유령처럼 귀가 두 개로 겹쳐서 나오거나, 배경이 찌그러지는 어색한 결과가 나옵니다.
  • 결과: 물체는 움직였는데, 주변 환경이 이상하게 꼬여서 자연스럽지 않습니다.

3. 해결책: 드래그스트림의 두 가지 마법 지팡이

연구팀은 이 두 가지 문제를 해결하기 위해 학습 없이 (Training-free) 작동하는 두 가지 전략을 개발했습니다.

🛡️ 마법 1: "나침반" (ADSR - 적응형 분포 자기 교정)

  • 역할: AI 가 길을 잃지 않도록 도와주는 나침반입니다.
  • 원리: 드래그를 할 때, AI 가 만들어낸 퍼즐 조각들이 원래의 '정답'에서 너무 멀리 벗어나지 않도록 이전 프레임들의 평균과 분포를 참고해서 바로잡아줍니다.
  • 효과: 고양이를 드래그해도 고양이일 뿐, 갑자기 개로 변하거나 색이 바뀌는 것을 막아줍니다. 드래그가 멈추지 않고 계속 이어질 수 있게 합니다.

🎛️ 마법 2: "스마트 필터" (SFSO - 공간 - 주파수 선택적 최적화)

  • 역할: 필요한 정보는 받아들이고, 방해되는 소음은 차단하는 스마트 필터입니다.
  • 원리:
    • 고주파 (세부 정보): 너무 세밀한 정보 (노이즈) 는 오히려 방해가 될 수 있으니, 드래그할 때만 필요한 부분으로만 전달합니다.
    • 저주파 (큰 그림): 전체적인 구조와 배경은 흐트러지지 않게 유지합니다.
    • 공간 선택: 드래그하는 '물체' 주변에만 집중하고, 배경은 건드리지 않습니다.
  • 효과: 물체는 자연스럽게 움직이지만, 배경은 흐트러지지 않고, 유령 같은 겹침 현상도 사라집니다.

4. 요약: 왜 이 기술이 특별한가요?

  1. 실시간 상호작용: 비디오가 생성되는 도중에도 언제든지 마우스로 드래그하여 수정할 수 있습니다.
  2. 학습 불필요 (Training-free): 거대한 AI 모델을 다시 학습시킬 필요가 없습니다. 기존에 있는 AI 모델에 바로 끼워 넣을 수 있습니다 (플러그 앤 플레이).
  3. 다양한 작업: 물체를 옮기는 것뿐만 아니라, 모양을 구부리거나 (변형), 돌리는 (회전) 것도 가능합니다.
  4. 고품질: 위와 같은 마법 지팡이들 덕분에, 수정된 비디오도 자연스럽고 고품질로 유지됩니다.

🎬 결론

이 기술은 **"비디오 편집"**과 **"비디오 생성"**의 경계를 허뭅니다. 마치 레고 블록을 조립하듯, 생성되는 비디오의 한 장면을 손으로 잡아서 원하는 대로 움직이면, AI 가 그 다음 장면을 자연스럽게 이어 만들어주는 것입니다.

앞으로 우리는 **"이 장면을 저렇게 바꿔줘"**라고 말하거나 드래그만 하면, AI 가 실시간으로 원하는 대로 비디오를 만들어주는 시대가 올 것입니다. 드래그스트림은 바로 그 시대를 여는 열쇠입니다.