TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

이 논문은 기존 학습 없이 추론 시 공간적·시간적 레이아웃과 텍스트-이미지 정렬을 개선하기 위해 테스트 시간 최적화와 매개변수 기반 기억 메커니즘을 도입한 TTOM 프레임워크를 제안하여 구성적 비디오 생성의 성능을 향상시킵니다.

Leigang Qu, Ziyang Wang, Na Zheng, Wenjie Wang, Liqiang Nie, Tat-Seng Chua

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

TTOM: 비디오 생성 AI 를 위한 '기억력'과 '실시간 학습'의 마법

이 논문은 최신 비디오 생성 AI(예: Wan2.1, CogVideoX 등) 가 가진 치명적인 약점을 해결하는 새로운 방법, TTOM을 소개합니다.

🎬 핵심 문제: "AI 는 복잡한 이야기를 잘 못 만들어요"

현재의 비디오 생성 AI 는 "한 마리의 고양이가 오른쪽으로 뛰어가는 것" 같은 단순한 명령은 잘 따릅니다. 하지만 **"두 마리의 판다가 정원에서 대나무를 먹고, 그 옆에서 로봇이 왼쪽으로 걸어가는"**처럼 여러 사물, 숫자, 공간 관계가 얽힌 복잡한 상황 (Compositional Scenario) 이 주어지면 엉망이 됩니다.

  • 실제 상황: "왼쪽으로 가는 로봇"을 시키면 로봇이 오른쪽으로 가거나, 판다 두 마리가 하나로 합쳐지거나, 숫자가 맞지 않습니다.
  • 기존 해결책의 한계: 기존 방법들은 매번 새로운 영상을 만들 때마다 AI 의 내부 상태를 강제로 수정하려 했습니다. 이는 마치 매번 새로운 그림을 그릴 때마다 화가의 손목을 붙잡고 방향을 잡아주는 것과 같아, 화가 (AI) 가 원래 가진 재능을 망가뜨리고 화질도 떨어뜨리는 부작용이 있었습니다.

💡 TTOM 의 해결책: "실시간 코칭"과 "기억력"

저자들은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입했습니다.

1. 실시간 코칭 (Test-Time Optimization, TTO)

기존의 "화가를 강제로 잡는" 방식 대신, 화가가 그림을 그리는 순간, 옆에서 "조금만 왼쪽으로 그려줘"라고 조용히 코칭하는 방식을 썼습니다.

  • 비유: AI 가 영상을 생성하는 과정에서, LLM(대형 언어 모델) 이 먼저 "이건 로봇이 왼쪽으로 가고, 판다는 오른쪽에 있어야 해"라는 **구체적인 지도 (Layout)**를 그려줍니다.
  • AI 는 이 지도를 보며, 그림을 그리는 중간 단계에서 **매우 가벼운 보조 장치 (파라미터)**를 살짝 조정합니다.
  • 결과: AI 의 원래 능력은 해치지 않으면서, 명령에 딱 맞는 영상을 만들어냅니다.

2. 기억력 (Parametric Memorization)

이게 이 방법의 가장 혁신적인 부분입니다. 기존 방식은 한 번 그림을 그리면 그 경험을 잊어버리고 다음 그림부터 다시 0 점부터 시작했습니다. 하지만 TTOM 은 경험을 기억하는 메모장을 가지고 있습니다.

  • 비유:
    • 기존 AI: 매번 새로운 주문이 들어오면 "어? 로봇이 왼쪽으로 가는 거였지? 어디에 있었지?"라며 다시 고민합니다.
    • TTOM: "아, 로봇이 왼쪽으로 가는 패턴은 이미 전에 그렸어! 그때의 경험 (기억) 을 꺼내서 바로 적용하자!"라고 합니다.
  • 작동 원리:
    1. 사용자가 "로봇이 왼쪽으로 간다"고 요청하면, AI 는 먼저 **기억장 (Memory)**을 뒤져봅니다.
    2. 비슷한 경험이 있다면, 그때의 최적의 조정 값을 꺼내와서 바로 적용합니다 (빠르고 정확함).
    3. 비슷한 게 없다면, 실시간 코칭을 통해 새로운 경험을 만들고, 그 결과를 기억장에 저장해 둡니다.
    4. 기억장이 꽉 차면, 가장 덜 쓰인 오래된 경험을 지우고 새로운 것을 넣습니다.

🚀 왜 이것이 중요한가요?

  1. 학습 없이도 똑똑해집니다 (Training-Free): AI 모델을 처음부터 다시 훈련시킬 필요 없이, 영상을 만드는 순간 (Test-Time) 에 바로 적응합니다.
  2. 지속적인 학습 (Lifelong Learning): 사용자가 더 많은 영상을 요청할수록, AI 는 기억장에 더 많은 '비법'을 쌓아 점점 더 똑똑해집니다.
  3. 복잡한 상황도 척척: 숫자 (4 마리의 판다), 공간 관계 (위아래, 좌우), 상호작용 (서로 마주 보는 로봇) 등 복잡한 지시사항을 훨씬 정확하게 따릅니다.

📊 실제 성과

실험 결과, TTOM 을 적용한 AI 는 기존 최고 성능 모델들보다 복잡한 상황 이해도에서 30~60% 이상 향상되었습니다. 특히 '운동 (Motion)'과 '숫자 (Numeracy)' 관련 작업에서 압도적인 개선을 보였습니다.

🎯 결론

TTOM 은 비디오 생성 AI 에게 **"실시간으로 코칭을 받으면서, 과거의 성공 경험을 기억해내는 능력"**을 부여했습니다. 이제 AI 는 단순한 그림 그리기를 넘어, 복잡한 이야기를 현실감 있게 연출하는 숙련된 영화 감독으로 거듭날 수 있게 되었습니다.