Each language version is independently generated for its own context, not a direct translation.

헥토르 (HECTOR): 비디오를 레고처럼 조립하는 마법 상자

이 논문은 **"HECTOR"**라는 새로운 비디오 생성 기술을 소개합니다. 기존의 AI 비디오 제작 방식이 가진 한계를 해결하고, 마치 레고 블록을 조립하듯 영상을 정밀하게 제어할 수 있게 해줍니다.

이 복잡한 기술을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 기존 방식의 문제점: "한 번에 다 찍는 카메라"

지금까지의 AI 비디오 생성 모델들은 영화를 찍을 때 한 번에 모든 장면을 찍는 카메라와 비슷했습니다.

문제: 사용자가 "강아지가 뛰어오르세요"라고 말하면, AI는 배경, 강아지, 구름, 나무를 모두 한꺼번에 만들어냅니다.
한계: 만약 나중에 "강아지는 그대로 두고 배경만 바다로 바꾸고 싶어요"라고 하거나 "강아지의 속도를 더 빠르게 하고 싶어요"라고 요청하면, AI는 전체 장면을 다시 그려야 합니다. 마치 점토로 만든 인형을 다듬으려다 모양이 망가질 위험이 있는 것과 같습니다.

2. HECTOR 의 혁신: "레고 조립 상자"

HECTOR 는 이 문제를 해결하기 위해 비디오를 레고 블록처럼 분해하고 다시 조립하는 방식을 도입했습니다.

개념: 영상을 하나의 덩어리가 아니라, 배경, 주인공 (사물), 동작으로 나눕니다.
비유: 마치 조립식 장난감을 만드는 것처럼, 각 부품 (레고 블록) 을 따로 준비했다가 원하는 대로 위치, 크기, 속도를 조절하여 하나의 완성된 영화로 합칩니다.

3. HECTOR 가 할 수 있는 놀라운 일들

① 사진과 영상을 섞어 쓰기 (하이브리드 참조)

기존: 사진 하나만 주면 그 사진 속 인물이 움직입니다.
HECTOR: 정지된 사진 (얼굴이나 옷의 디테일) 과 움직이는 영상 (손짓이나 춤 동작) 을 동시에 줄 수 있습니다.
- 비유: "이 사진 속의 얼굴을 가져와서, 저 영상 속의 춤 동작을 따라 하게 해줘"라고 명령할 수 있습니다. AI 는 얼굴은 사진처럼 똑같이 유지하면서, 춤은 영상처럼 자연스럽게 추게 만듭니다.

② 정밀한 궤적 제어 (레고 위치 조절)

기능: 사용자가 "이 강아지는 왼쪽에서 오른쪽으로 날아가고, 크기는 점점 커졌다가 작아져"라고 정밀하게 지시할 수 있습니다.
비유: 레고 블록을 정해진 트랙 위에 놓는 것처럼, 사물이 어디로, 얼마나 빠르게, 어떤 크기로 움직일지 정확히 설계할 수 있습니다.

③ 배경은 그대로, 주인공만 바꾸기 (편집 기능)

기능: 이미 만들어진 영상에서 배경은 그대로 두고, 주인공만 다른 사람이나 사물로 교체하거나 추가할 수 있습니다.
비유: 녹화된 배경 화면 위에 새로운 인물을 초록색 스크린 (크로마키) 없이도 자연스럽게 합성하는 것과 같습니다. 배경이 흔들리지 않고 고정된 상태에서 주인공만 자유롭게 움직입니다.

4. HECTOR 가 사용하는 두 가지 핵심 도구

이 마법 같은 기술은 두 가지 중요한 '도구' 덕분에 가능합니다.

비디오 분해기 (Video Decompositor): "정교한 해체 기계"
- 이 도구는 기존 영상을 분석해서 사물들이 어떻게 움직이는지, 크기가 어떻게 변하는지 점 (Point) 단위로 추적합니다.
- 비유: 마치 마술사의 비법처럼, 영상 속 사물을 박스 (Bounding Box) 로 단순히 가두는 게 아니라, 사물의 핵심 포인트를 따라가며 정밀하게 궤적을 그립니다. 그래서 사물이 가려지거나 (가림 현상) 움직일 때에도 흐트러지지 않습니다.
시공간 정렬 모듈 (STAM): "완벽한 조립 기계"
- 이 도구는 사진, 영상, 그리고 사용자가 그린 궤적 정보를 모두 받아서, AI 가 이해할 수 있는 언어로 변환한 뒤 하나의 완성된 영상으로 합칩니다.
- 비유: 여러 개의 나뭇조각 (참고 자료) 을 가져와서, 사용자가 그린 설계도 (궤적) 에 맞춰서 완벽하게 딱 들어맞게 조립하는 기계입니다.

5. 왜 이것이 중요한가요?

전문가들의 꿈: 영화 제작자나 애니메이션 작가는 이제 매번 처음부터 장면을 다시 그릴 필요 없이, 원하는 부분만 정밀하게 수정할 수 있습니다.
자연스러움: 여러 사물이 겹치거나 복잡하게 움직여도, 서로 부딪히지 않고 자연스럽게 어울립니다.
창의성: "이 영화의 배경을 우주로 바꾸고, 주인공은 로봇으로 바꿔줘"처럼 상상하는 대로 자유롭게 편집할 수 있습니다.

요약

HECTOR는 AI 가 영상을 '한 번에 찍는 카메라'가 아니라, 각 요소를 따로 조립하고 수정할 수 있는 정교한 레고 조립 상자로 바꿔놓은 기술입니다. 이를 통해 우리는 더 이상 AI 가 만들어준 영상을 그냥 받아쓰는 것이 아니라, 마치 직접 영화를 편집하듯 정밀하게 통제하고 창작할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비디오 생성 모델 (Text-to-Video, Image-to-Video) 은 장면을 전체적으로 (holistically) 생성하는 경향이 있어, 개별 물체의 행동이나 상호작용에 대한 정밀한 제어 (fine-grained control) 가 부족합니다.

현재의 한계:
- 단일 엔티티 처리: 기존 방법들은 비디오를 하나의 단위로 다루거나, 특정 객체만 바운딩 박스 (bounding box) 로 제한하여 제어하려 시도합니다.
- 복합적 구성의 부재: 여러 개의 객체가 복잡하게 상호작용하는 장면을 생성할 때, 각 객체의 외형 (identity) 과 움직임 (motion) 을 독립적으로 제어하기 어렵습니다.
- 참조 자료의 제한: 정적 이미지 (Static Image) 는 참조할 수 있지만, 동적 비디오 (Dynamic Video) 를 참조하여 특정 제스처나 움직임을 유지하면서 생성하는 것은 어렵습니다.
- 편집 기능의 부족: 생성된 비디오에서 객체를 교체하거나 추가할 때, 배경이나 다른 객체의 일관성을 유지하며 정밀하게 편집하는 기능이 미흡합니다.

2. 방법론 (Methodology)

HECTOR 는 하이브리드 편집 가능한 구성형 객체 참조 (Hybrid Editable Compositional Object References) 를 지원하는 생성 파이프라인으로, 크게 두 가지 핵심 모듈로 구성됩니다.

가. 비디오 분해기 (Video Decompositor)

기존 비디오를 학습 데이터로 활용하거나 편집 시 자산을 추출하기 위해 비디오를 구성 요소로 분해하는 엔진입니다.

객체 분할 및 앵커 포인트: SAM2 를 사용하여 객체를 분할하고, 객체의 크기와 형태에 따라 적응적으로 여러 개의 '앵커 포인트 (Anchor Points)'를 샘플링합니다.
궤적 및 스케일 추출: Cotracker3 와 같은 포인트 트래커를 사용하여 앵커 포인트의 궤적을 추적합니다. 단순한 바운딩 박스 대신, 포인트 군집의 분산을 기반으로 스케일 (Scale) 과 위치 (Location) 를 정밀하게 계산합니다.
가시성 (Visibility) 처리: 객체의 진입, 퇴장, 가려짐 (occlusion) 을 이진 가시성 지표를 통해 정밀하게 기록합니다.

나. HECTOR 생성 모델 (Generative Model)

분해된 요소를 다시 통합하여 일관된 비디오를 생성하는 모델입니다.

Spatio-Temporal Alignment Module (STAM):
- 하이브리드 참조 통합: 정적 이미지 (외형/Identity) 와 동적 비디오 (제스처/Motion) 를 동시에 참조할 수 있도록 설계되었습니다.
- 잠재 공간 정렬: 각 참조물을 VAE 잠재 공간 (Latent Space) 으로 인코딩한 후, 추출된 궤적 (Trajectory) 에 따라 가우시안 소프트 마스크 (Gaussian Softened Visibility Masks) 를 사용하여 잠재 캔버스에 정밀하게 배치합니다.
- 구조적 조건 (Structural Condition): 이미지 특징과 비디오 특징을 결합한 조건 텐서 ( $z_{cond}$ ) 와 다채널 마스크 ( $M$ ) 를 생성하여 DiT(Diffusion Transformer) 백본에 주입합니다. 이를 통해 모델은 정적 외형과 동적 움직임을 공간적으로 구분하여 학습합니다.
동적 모달리티 우선순위 (Dynamic Modality Prioritization):
- 정적 객체와 동적 객체의 궤적이 겹칠 때 발생하는 충돌을 해결하기 위해, 전경 - 배경 게이트 메커니즘을 도입합니다. 사용자가 특정 모달리티를 전경으로 우선 지정하면, 배경 모달리티의 구조적 조건이 반전된 게이트를 통해 가려져 특징의 누출 (bleeding) 을 방지합니다.

3. 주요 기여 (Key Contributions)

완전한 구성형 비디오 생성 프레임워크: 최초로 정적 이미지와 동적 비디오를 동시에 참조하며, 각 요소의 위치, 크기, 속도를 독립적으로 제어할 수 있는 프레임워크를 제안했습니다.
Spatio-Temporal Alignment Module (STAM): 정적 및 동적 참조를 잠재 공간에서 공간적, 시간적으로 정렬하여 통합하는 새로운 모듈을 개발했습니다.
Video Decompositor: 비디오 데이터에서 정밀한 궤적과 구성 구조를 자동으로 추출하여 학습 데이터 선별 (curation) 과 추론 시 비디오 편집을 가능하게 하는 메커니즘을 제시했습니다.
고급 편집 기능: 객체 교체 (Replacement), 추가 (Addition), 배경 잠금 (Background-Locked) 등 정밀한 편집 작업을 지원합니다.

4. 실험 결과 (Results)

정량적 평가: 단일 객체 및 다중 객체 시나리오에서 MotionBooth, VACE 등 기존 방법론과 비교하여 R-DINO, DINO-I (정체성 보존), mIoU, Centroid Distance (움직임 제어 정밀도) 에서 압도적인 성능을 보였습니다. 특히 움직임 제어 정밀도는 기존 최강 경쟁사 대비 약 2 배 향상되었습니다.
정성적 평가:
- 복잡한 다중 객체 장면에서도 객체의 외형 (얼굴, 옷 등) 이 일관되게 유지됩니다.
- 기존 방법들은 객체가 겹치거나 복잡한 움직임 시 정체성 손실 (identity drift) 이 발생하지만, HECTOR 는 이를 효과적으로 해결합니다.
- 비디오 참조를 통한 객체 교체 및 배경 고정 편집이 자연스럽게 수행됩니다.
Ablation Study:
- 바운딩 박스 대신 궤적 기반 스케일 (Trajectory-based scale) 을 사용할 때 성능이 크게 향상됨을 확인했습니다.
- 하이브리드 참조 (이미지 + 비디오) 학습이 운동 준수도와 화질에 필수적입니다.
- 가우시안 소프트 마스크가 이진 마스크보다 잠재 공간에서의 특징 혼합에 더 효과적입니다.

5. 의의 및 중요성 (Significance)

HECTOR 는 생성형 AI 가 단순한 텍스트/이미지 기반 생성을 넘어, 전문가 수준의 비디오 편집 및 제작 도구로 발전할 수 있는 중요한 전환점을 제시합니다.

정밀한 제어: 사용자가 장면의 각 구성 요소를 독립적으로 조작할 수 있어, 영화, 애니메이션, 콘텐츠 제작 분야에서 실용성이 크게 높아집니다.
복합적 상호작용: 여러 객체가 복잡하게 상호작용하는 동적 장면을 생성할 수 있는 능력을 입증하여, 기존 모델의 한계를 극복했습니다.
편집 가능성: 생성된 비디오를 사후에 수정 (객체 교체, 추가 등) 할 수 있는 유연성을 제공하여, 생성과 편집의 경계를 허뭅니다.

이 연구는 생성 모델이 '전체적인 장면 생성'에서 '구성적 (Compositional) 제어'로 패러다임을 전환할 수 있음을 보여주며, 향후 정밀한 비디오 생성 및 편집 기술의 표준이 될 것으로 기대됩니다.

HECTOR: Hybrid Editable Compositional Object References for Video Generation