Each language version is independently generated for its own context, not a direct translation.

TTOM: 비디오 생성 AI 를 위한 '기억력'과 '실시간 학습'의 마법

이 논문은 최신 비디오 생성 AI(예: Wan2.1, CogVideoX 등) 가 가진 치명적인 약점을 해결하는 새로운 방법, TTOM을 소개합니다.

🎬 핵심 문제: "AI 는 복잡한 이야기를 잘 못 만들어요"

현재의 비디오 생성 AI 는 "한 마리의 고양이가 오른쪽으로 뛰어가는 것" 같은 단순한 명령은 잘 따릅니다. 하지만 **"두 마리의 판다가 정원에서 대나무를 먹고, 그 옆에서 로봇이 왼쪽으로 걸어가는"**처럼 여러 사물, 숫자, 공간 관계가 얽힌 복잡한 상황 (Compositional Scenario) 이 주어지면 엉망이 됩니다.

실제 상황: "왼쪽으로 가는 로봇"을 시키면 로봇이 오른쪽으로 가거나, 판다 두 마리가 하나로 합쳐지거나, 숫자가 맞지 않습니다.
기존 해결책의 한계: 기존 방법들은 매번 새로운 영상을 만들 때마다 AI 의 내부 상태를 강제로 수정하려 했습니다. 이는 마치 매번 새로운 그림을 그릴 때마다 화가의 손목을 붙잡고 방향을 잡아주는 것과 같아, 화가 (AI) 가 원래 가진 재능을 망가뜨리고 화질도 떨어뜨리는 부작용이 있었습니다.

💡 TTOM 의 해결책: "실시간 코칭"과 "기억력"

저자들은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했습니다.

1. 실시간 코칭 (Test-Time Optimization, TTO)

기존의 "화가를 강제로 잡는" 방식 대신, 화가가 그림을 그리는 순간, 옆에서 "조금만 왼쪽으로 그려줘"라고 조용히 코칭하는 방식을 썼습니다.

비유: AI 가 영상을 생성하는 과정에서, LLM(대형 언어 모델) 이 먼저 "이건 로봇이 왼쪽으로 가고, 판다는 오른쪽에 있어야 해"라는 **구체적인 지도 (Layout)**를 그려줍니다.
AI 는 이 지도를 보며, 그림을 그리는 중간 단계에서 **매우 가벼운 보조 장치 (파라미터)**를 살짝 조정합니다.
결과: AI 의 원래 능력은 해치지 않으면서, 명령에 딱 맞는 영상을 만들어냅니다.

2. 기억력 (Parametric Memorization)

이게 이 방법의 가장 혁신적인 부분입니다. 기존 방식은 한 번 그림을 그리면 그 경험을 잊어버리고 다음 그림부터 다시 0 점부터 시작했습니다. 하지만 TTOM 은 경험을 기억하는 메모장을 가지고 있습니다.

비유:
- 기존 AI: 매번 새로운 주문이 들어오면 "어? 로봇이 왼쪽으로 가는 거였지? 어디에 있었지?"라며 다시 고민합니다.
- TTOM: "아, 로봇이 왼쪽으로 가는 패턴은 이미 전에 그렸어! 그때의 경험 (기억) 을 꺼내서 바로 적용하자!"라고 합니다.
작동 원리:
1. 사용자가 "로봇이 왼쪽으로 간다"고 요청하면, AI 는 먼저 **기억장 (Memory)**을 뒤져봅니다.
2. 비슷한 경험이 있다면, 그때의 최적의 조정 값을 꺼내와서 바로 적용합니다 (빠르고 정확함).
3. 비슷한 게 없다면, 실시간 코칭을 통해 새로운 경험을 만들고, 그 결과를 기억장에 저장해 둡니다.
4. 기억장이 꽉 차면, 가장 덜 쓰인 오래된 경험을 지우고 새로운 것을 넣습니다.

🚀 왜 이것이 중요한가요?

학습 없이도 똑똑해집니다 (Training-Free): AI 모델을 처음부터 다시 훈련시킬 필요 없이, 영상을 만드는 순간 (Test-Time) 에 바로 적응합니다.
지속적인 학습 (Lifelong Learning): 사용자가 더 많은 영상을 요청할수록, AI 는 기억장에 더 많은 '비법'을 쌓아 점점 더 똑똑해집니다.
복잡한 상황도 척척: 숫자 (4 마리의 판다), 공간 관계 (위아래, 좌우), 상호작용 (서로 마주 보는 로봇) 등 복잡한 지시사항을 훨씬 정확하게 따릅니다.

📊 실제 성과

실험 결과, TTOM 을 적용한 AI 는 기존 최고 성능 모델들보다 복잡한 상황 이해도에서 30~60% 이상 향상되었습니다. 특히 '운동 (Motion)'과 '숫자 (Numeracy)' 관련 작업에서 압도적인 개선을 보였습니다.

🎯 결론

TTOM 은 비디오 생성 AI 에게 **"실시간으로 코칭을 받으면서, 과거의 성공 경험을 기억해내는 능력"**을 부여했습니다. 이제 AI 는 단순한 그림 그리기를 넘어, 복잡한 이야기를 현실감 있게 연출하는 숙련된 영화 감독으로 거듭날 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 텍스트-비디오 (T2V) 생성 모델은 흐름 매칭 (flow matching) 과 디퓨전 트랜스포머 (DiT) 의 발전으로 인해 사실적인 비디오를 생성할 수 있게 되었습니다. 그러나 구성적 시나리오 (compositional scenarios) 에서는 여전히 심각한 한계를 보입니다.

구성적 어려움: 여러 객체, 속성, 수치 (numeracy), 공간적 관계 (spatial relations), 운동 (motion) 등을 하나의 복잡한 장면으로 조합할 때, 모델은 텍스트 프롬프트와 생성된 비디오 간의 불일치 (misalignment) 를 자주 보입니다.
- 예: "두 마리의 판다가 정원에서 대나무를 먹는다"는 프롬프트에서 판다의 개수가 2 개가 아니거나, 운동 방향이 틀리는 경우.
기존 방법의 한계:
1. 잠재 변수 (Latent) 또는 어텐션 맵 직접 개입: 기존 연구들은 생성 과정 중 잠재 변수나 어텐션 맵을 직접 수정하여 레이아웃을 강제했습니다. 이는 특징 분포를 교란시켜 비디오 품질 저하 (깜빡임, 일관성 손실, 붕괴) 를 유발할 수 있습니다.
2. 샘플 단위 독립 처리: 각 테스트 샘플을 독립적으로 처리하여, 이전에 생성된 성공적인 사례 (히스토리) 를 재사용하지 못합니다.
3. 일반화 부재: 특정 샘플에 대한 개입이 다른 샘플로 일반화되지 않아 모델의 내재적 능력을 향상시키지 못합니다.

2. 방법론 (Methodology)

TTOM 은 모델에 구애받지 않는 (model-agnostic) 프레임워크로, 추론 시 (inference) 에 새로운 파라미터를 최적화하고 이를 메모리에 저장하여 재사용하는 방식으로 작동합니다.

2.1. LLM 기반 시공간 레이아웃 계획 (LLM-Driven Spatial-Temporal Layout Planning)

입력된 텍스트 프롬프트를 대형 언어 모델 (LLM) 에게 전달하여 시공간 레이아웃 (Spatiotemporal Layout, STL) 을 생성합니다.
LLM 은 객체의 운동, 카메라 동작 등을 설명하고, 이를 바탕으로 각 객체의 바운딩 박스 (Bounding Box) 시퀀스를 프레임 단위로 생성합니다.
생성된 레이아웃의 일관성을 검증하는 단계를 거쳐 신뢰성을 높입니다.

2.2. 테스트 타임 최적화 (Test-Time Optimization, TTO)

어텐션 - 레이아웃 정렬 (Attention-to-Layout Alignment): 생성된 비디오의 크로스 어텐션 맵 (cross-attention maps) 과 LLM 이 생성한 레이아웃 (소프트 마스크) 간의 정렬을 최적화합니다.
손실 함수: 제이슨 - 샤논 발산 (Jensen-Shannon Divergence, JSD) 을 사용하여 어텐션 맵과 레이아웃 간의 차이를 최소화합니다.
파라미터 최적화: 기존 연구와 달리 잠재 변수 ( $z_t$ $z_{t}$ ) 를 직접 수정하는 것이 아니라, 경량화된 새로운 파라미터 (LoRA 등, $\phi$ ) 를 모델에 주입하고 이를 최적화합니다.
- 이 방식은 잠재 변수 조작으로 인한 분포 붕괴를 방지하며, 최적화된 파라미터가 특정 구성적 패턴 (운동, 수치 등) 을 학습하여 재사용 가능하게 만듭니다.

2.3. 파라메트릭 메모리 메커니즘 (Parametric Memory Mechanism)

구조: 메모리는 키 - 값 쌍 $(g(C), \phi^*_C)$ 의 집합으로 정의됩니다. 여기서 키는 프롬프트의 추상화된 의미 표현 (scene abstraction) 이고, 값은 해당 프롬프트에 대해 최적화된 파라미터입니다.
동작:
1. Insert (삽입): 새로운 프롬프트에 대해 TTO 를 수행한 후, 최적화된 파라미터를 메모리에 저장합니다.
2. Read (읽기): 유사한 프롬프트가 들어오면 메모리에서 해당 파라미터를 검색하여 로드합니다.
3. Update (업데이트): 로드된 파라미터를 기반으로 추가 최적화를 수행하거나, 바로 생성을 수행합니다.
4. Delete (삭제): 메모리 용량이 가득 차면 사용 빈도가 낮은 항목을 제거합니다.
효과: 이전 테스트 사례의 최적화 맥락을 유지하여 라이프롱 러닝 (lifelong learning) 을 지원하며, 유사한 요청에 대해서는 최적화 단계를 생략하거나 초기화만 하여 효율성을 극대화합니다.

3. 주요 기여 (Key Contributions)

지도 없는 테스트 타임 최적화 프레임워크: 구성적 T2V 를 위해 시공간 레이아웃을 가이드로 사용하여, 각 데이터 샘플마다 경량 파라미터를 최적화하는 새로운 접근법을 제안했습니다.
파라메트릭 메모리 메커니즘: 역사적 최적화 맥락을 유지하는 메모리 구조를 설계하여, 삽입, 읽기, 업데이트, 삭제 등 유연한 연산을 지원하고 효율성과 확장성을 확보했습니다.
성능 및 일반화 입증: T2V-CompBench 와 VBench 벤치마크에서 기존 최첨단 모델 (CogVideoX-5B, Wan2.1-14B 등) 대비 압도적인 성능 향상을 보였으며, 특히 운동 (Motion) 과 수치 (Numeracy) 분야에서 큰 개선을 달성했습니다.

4. 실험 결과 (Results)

T2V-CompBench 평가:
- CogVideoX-5B: 전체 평균 성능이 34.45% 향상되었습니다. 특히 '운동 (Motion)' 카테고리에서 63.69%, '수치 (Numeracy)'에서 37.10% 의 상대적 개선을 보였습니다.
- Wan2.1-14B: 전체 평균 성능이 15.83% 향상되었으며, '운동' 카테고리에서 82.57% 의 큰 향상을 기록했습니다.
VBench 평가: 객체 분류, 다중 객체 처리, 색상 및 공간 관계 정확도 등 의미적 일관성 (Semantic Consistency) 측면에서도 기존 방법 (LVD 등) 보다 우수한 성능을 보였습니다.
Ablation Study:
- TTO 와 메모리 메커니즘을 모두 사용할 때 가장 높은 성능을 보였습니다.
- 메모리 초기화만으로도 상당한 성능 향상이 있었으며, 추가적인 TTO 를 통해 더 개선되었습니다.
- JSD 손실 함수가 다른 손실 함수 (BCE, CoM) 보다 구성적 작업에서 더 효과적이었습니다.

5. 의의 및 결론 (Significance)

TTOM 은 비디오 생성 모델의 구성적 한계를 해결하기 위해 추론 시 최적화 (Test-Time Optimization) 와 메모리 기반 학습 (Memorization) 을 결합한 혁신적인 프레임워크입니다.

실용성: 추가적인 모델 학습 (Training) 없이도, 사용자 프롬프트 스트림에 맞춰 실시간으로 적응하며 비디오 품질을 향상시킬 수 있습니다.
확장성: 메모리 메커니즘을 통해 과거의 성공적인 생성 경험을 재사용함으로써, 모델의 내재적 능력을 지속적으로 강화하고 개인화된 생성을 지원합니다.
일반화: 구성적 세계 지식 (운동 패턴, 객체 상호작용 등) 을 분리 (disentangle) 하여 다양한 시나리오로 효과적으로 전이 (transfer) 시킵니다.

이 연구는 텍스트-비디오 생성 분야에서 복잡한 구성적 요구사항을 충족시키기 위한 효율적이고 확장 가능한 솔루션을 제시하며, 실시간 생성 시스템의 발전에 중요한 기여를 합니다.

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation