Each language version is independently generated for its own context, not a direct translation.

🎥 SPATIALALIGN: 비디오 속 '공간감'을 가르치는 새로운 방법

이 논문은 "텍스트를 입력하면 동영상을 만들어주는 AI" 가 아직 해결하지 못한 아주 중요한 문제를 다룹니다. 바로 "공간적 관계 (어디에 있고, 어떻게 움직이는가)" 를 정확히 이해하고 표현하는 능력입니다.

이 복잡한 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 문제: AI 는 "방향"을 잘 모릅니다 🤔

지금까지의 AI 비디오 생성 모델들은 그림이 얼마나 예쁜지 (미적 품질) 에는 매우 능숙합니다. 하지만 지시사항을 따르는 능력은 아직 부족합니다.

사용자의 요청: "나무 그루터기 오른쪽에 있는 여우가 왼쪽으로 걸어갑니다."
기존 AI 의 실수: 여우가 그루터기 위에 멈춰버리거나, 반대 방향으로 가거나, 아예 움직이지 않습니다.

AI 는 "오른쪽", "왼쪽", "위" 같은 공간 개념을 숫자나 좌표로 정확히 계산하기보다, 단순히 "그림에서 오른쪽에 무언가가 있는 것" 정도로만 대충 이해하고 있는 셈입니다.

2. 해결책: SPATIALALIGN (스페이스얼라인) 🧭

연구진은 이 문제를 해결하기 위해 SPATIALALIGN이라는 새로운 방법을 개발했습니다. 이 방법은 AI 를 가르치는 세 가지 핵심 단계로 이루어져 있습니다.

① 단계 1: 정교한 '공간 점수계' 만들기 (DSR-SCORE) 📏

기존에는 AI 가 만든 동영상을 평가할 때, 또 다른 AI(시각 언어 모델) 에게 "이게 맞나요?"라고 물어보곤 했습니다. 하지만 그 AI 도 공간 감각이 부족해서 엉뚱한 답을 내놓는 경우가 많았습니다.

연구진은 대신 기하학적 원리 (수학) 를 사용했습니다.

비유: 마치 자 (Ruler) 를 가지고 재는 것처럼요.
AI 가 만든 영상에서 '동물'과 '물체'의 위치를 박스 (Bounding Box) 로 잡아서, 실제 좌표를 계산합니다.
"처음엔 오른쪽에 있었나? (O)" -> "나중엔 왼쪽으로 갔나? (O)" -> 이 과정을 수학적으로 점수화했습니다. 이를 DSR-SCORE라고 부릅니다.

② 단계 2: AI 가 스스로 배우게 하기 (DPO) 🎓

이제 AI 를 훈련시킬 차례입니다.

기존 방식: 정답 영상을 보여주고 "이렇게 만들어"라고 가르치는 것 (지도 학습). 하지만 정답이 명확한 동영상을 구하기 어렵고, AI 가 정답을 외울 뿐 원리를 이해하지 못합니다.
SPATIALALIGN 방식: AI 가 여러 개의 동영상을 만들어내면, 위에서 만든 '공간 점수계 (DSR-SCORE)' 로 점수를 매깁니다.
- 점수가 높은 영상 = 승자 (Winner) 🏆
- 점수가 낮은 영상 = 패자 (Loser) ❌
AI 는 "승자 영상은 더 잘 만들고, 패자 영상은 피해야 한다"는 규칙을 스스로 학습합니다. 이를 DPO(직접 선호 최적화) 라고 합니다.

③ 단계 3: '수학'과 '감각'의 균형 잡기 (Zeroth-Order Regularization) ⚖️

여기서 중요한 트릭이 하나 있습니다.

AI 가 점수만 높으려고 엉뚱한 방법 (예: 화면을 너무 밝게 하거나, 색을 과하게 칠하는 등) 으로 점수를 따낼 수 있습니다.
연구진은 AI 가 원래의 화질과 자연스러움을 잃지 않도록, '참조 모델 (원래 AI)'과 너무 멀어지지 않게 보정 장치를 달아주었습니다.
비유: 시험 점수만 잘 받으려고 답안지를 찢어버리는 학생을 막고, 정답을 맞히되 예필도 잘 쓰는 학생으로 키우는 것입니다.

3. 결과: 놀라운 변화! ✨

이 방법을 적용한 AI 는 이전 모델들과 비교해 압도적인 성과를 냈습니다.

이전 AI: "여우가 나무 왼쪽으로 간다"고 했더니, 여우가 나무 위에 앉거나 반대 방향으로 갔습니다.
SPATIALALIGN AI: 지시사항대로 정확하게 오른쪽에서 왼쪽으로 이동하는 동영상을 만들어냅니다.

4. 요약: 왜 이 연구가 중요할까요? 🌟

이 연구는 AI 가 단순히 "예쁜 그림"을 그리는 것을 넘어, 물리 법칙과 공간 관계를 이해하는 '현실적인' AI로 발전하는 중요한 발걸음입니다.

로봇 공학: 로봇이 "책상 오른쪽에 있는 컵을 가져와"라는 지시를 정확히 수행할 수 있게 됩니다.
영화/게임: 감독의 복잡한 지시 ("주인공이 나무 뒤에 숨었다가 왼쪽으로 뛰어넘어") 를 AI 가 자동으로 구현할 수 있게 됩니다.

한 줄 요약:

"이제 AI 는 그림을 그릴 때 자 (Ruler) 를 들고, 수학을 계산하며, 정확한 공간 감각을 익혀서 우리가 원하는 대로 움직이는 동영상을 만들어냅니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 텍스트 - 비디오 (T2V) 생성 모델들은 주로 미적 품질 (aesthetic quality) 에 집중하는 반면, 텍스트 프롬프트에 명시된 **동적 공간 관계 (Dynamic Spatial Relationships, DSR)**를 정확하게 반영하는 데는 한계가 있습니다.

핵심 문제: "동물이 물체의 오른쪽에 있다가 왼쪽으로 이동한다"와 같이, 시간의 흐름에 따라 객체 간의 공간적 위치가 변화하는 복잡한 지시사항을 모델이 제대로 이해하고 생성하지 못합니다.
현황: 최신 SOTA 모델들 (Wan, CogVideoX 등) 이 정적인 이미지 생성에서는 공간 제어를 어느 정도 수행할 수 있으나, 동적인 비디오 생성에서는 단순한 공간 이동 지시조차 자주 실패하거나 (예: 이동 방향이 반대로 나오거나, 중간에 멈춤), 객체의 정체성 (ID) 이 유지되지 않는 문제가 발생합니다.
기존 평가의 한계: 기존 연구들은 시각 - 언어 모델 (VLM) 을 사용하여 생성된 비디오의 공간 관계를 평가했으나, VLM 은 동적인 공간 추론 능력이 부족하여 신뢰도가 낮다는 것이 발견되었습니다.

2. 제안 방법론 (Methodology: SPATIALALIGN)

저자들은 T2V 모델이 프롬프트에 명시된 DSR 을 정확하게 따르도록 개선하기 위해 SPATIALALIGN이라는 자기 개선 (self-improvement) 프레임워크를 제안합니다. 이 프레임워크는 크게 세 가지 핵심 요소로 구성됩니다.

A. DSR-SCORE (기하학적 기반 평가 지표)

VLM 에 의존하지 않는 신뢰할 수 있는 보상 신호를 제공하기 위해 DSR-SCORE를 개발했습니다.

구현 방식:
1. 객체 추적: GroundedSAM 등을 사용하여 비디오 프레임별 동물과 정적 객체의 바운딩 박스 (bbox) 좌표를 추출합니다.
2. 정적 공간 관계 (SSR) 점수: 각 프레임에서 두 객체의 중심 좌표와 벡터 방향을 기반으로 '왼쪽', '오른쪽', '위쪽' 등의 관계가 얼마나 잘 충족되는지 $[-1, 1]$ 범위의 점수를 계산합니다.
3. 동적 점수 산출: 전체 비디오에 대해 초기 SSR 점수 (시작 위치), 최종 SSR 점수 (종료 위치), 그리고 두 점수 사이의 변화 폭 (transition gap) 을 종합하여 $[0, 1]$ 범위의 DSR-SCORE 를 도출합니다.
의의: 이는 VLM 의 주관적인 판단을 배제하고 기하학적 원리를 기반으로 하므로 더 정밀하고 해석 가능한 평가가 가능합니다.

B. 영차 정규화 (Zeroth-Order Regularization) 를 적용한 DPO

모델을 미세 조정 (Fine-tuning) 하기 위해 **직접 선호 최적화 (Direct Preference Optimization, DPO)**를 도입하되, 기존 DPO 의 단점을 보완한 새로운 손실 함수를 설계했습니다.

데이터 구성: 동일한 프롬프트에 대해 여러 비디오 샘플을 생성하고, DSR-SCORE 를 기준으로 '승자 (Winner, 점수 높음)'와 '패자 (Loser, 점수 낮음)' 쌍을 구성합니다.
손실 함수 설계:
- 기존 DPO 만 사용할 경우, 모델이 공간 관계만 맞추기 위해 이미지 품질이 급격히 떨어지거나 (Likelihood Displacement), 과적합되는 문제가 발생했습니다.
- 이를 해결하기 위해 영차 정규화 (Zeroth-Order Regularization, $L_{ZO}$ ) 항을 추가했습니다. 이는 참조 모델 (Reference Model) 을 '앵커'로 삼아, 선호도 최적화 과정에서 생성된 콘텐츠가 참조 모델의 기본적인 품질 (색감, 선명도 등) 에서 너무 벗어나지 않도록 제약을 가합니다.
- 최종 손실 함수: $L = L_{DPO} + \lambda_{ZO} L_{ZO}$

C. 데이터 커레이션 (DSR-DATASET)

학습 및 평가를 위해 다양한 동물, 정적 객체, 공간 관계 (좌/우/위), 그리고 이동 패턴을 포함한 DSR-DATASET을 구축했습니다. 이 데이터셋은 유효성 (Valid) 검증을 거친 샘플들만 포함합니다.

3. 주요 기여 (Key Contributions)

DSR-SCORE: VLM 기반 평가의 불확실성을 해결한, 기하학적 원리에 기반한 정량적이고 신뢰할 수 있는 DSR 평가 지표 개발.
SPATIALALIGN: DSR-SCORE 를 보상 신호로 활용하고, 영차 정규화를 통해 DPO 를 적용한 새로운 미세 조정 전략. 이는 SFT(지도 학습) 나 기존 DPO 보다 우수한 성능을 보입니다.
DSR-DATASET: 제어된 DSR 시나리오를 위한 새로운 벤치마크 데이터셋과 이를 통한 광범위한 실험 결과 제시.

4. 실험 결과 (Results)

정량적 평가: Wan2.1-1.3B, CogVideoX, OpenSora 등 여러 SOTA 모델에 SPATIALALIGN 을 적용한 결과, Correctness@0.7(DSR-SCORE 가 0.7 이상인 비율) 에서 기존 모델 대비 압도적인 성능 향상을 보였습니다. (예: Wan2.1-1.3B 기준 0.125 → 0.585 로 대폭 상승).
정성적 평가: 생성된 비디오에서 동물이 프롬프트에 명시된 대로 정확한 방향과 위치로 이동하며, 객체의 정체성 (ID) 과 화질 (Image Quality) 이 유지되는 것을 확인했습니다.
VLM 비교: VLM 기반 보상 신호로 학습한 모델은 오히려 성능이 저하되거나 VLM 의 오류에 민감한 반면, DSR-SCORE 를 사용한 모델은 일관된 성능 향상을 보였습니다.
일반화 능력: 학습 시 사용된 프롬프트 구조와 다른 형태의 프롬프트 (예: "from...to..." 구조) 에 대해서도 우수한 성능을 발휘하여, 모델이 단순한 패턴 암기가 아닌 공간 관계의 시맨틱을 학습했음을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 텍스트 - 비디오 생성 분야에서 물리 법칙과 공간적 논리를 모델링하는 데 중요한 진전을 이루었습니다.

신뢰성 있는 평가: VLM 에 의존하지 않는 기하학적 평가 지표의 도입은 향후 물리 기반 비디오 생성 연구의 표준 평가 방법론으로 자리 잡을 수 있습니다.
효율적인 학습 전략: 복잡한 공간 관계를 학습시키기 위해 고비용의 온라인 강화학습 (PPO 등) 대신, 오프라인 DPO 와 정규화 기법을 결합하여 계산 효율성과 안정성을 동시에 확보했습니다.
확장성: 이 프레임워크는 단순한 공간 관계를 넘어, 물리 법칙 (중력, 충돌 등) 이 포함된 더 복잡한 비디오 생성 작업에도 적용 가능한 일반적인 해결책을 제시합니다.

요약하자면, SPATIALALIGN은 텍스트 프롬프트에 명시된 동적 공간 관계를 정확하게 구현하는 비디오를 생성할 수 있도록 T2V 모델을 정밀하게 조정하는 혁신적인 방법론입니다.

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation