TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

本文提出了名为 TTOM 的训练无关框架,通过引入测试时优化与参数化记忆机制,在推理阶段动态对齐视频生成模型与时空布局,从而有效解决了现有模型在运动、数量及空间关系等组合场景下的生成难题。

Leigang Qu, Ziyang Wang, Na Zheng, Wenjie Wang, Liqiang Nie, Tat-Seng Chua

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 TTOM(测试时优化与记忆)的新方法,旨在解决当前 AI 视频生成模型的一个大痛点:“听指挥”能力差

简单来说,现在的 AI 画视频很厉害,但如果你让它画“一只猫在左边,一只狗在右边,它们互相追逐”,AI 经常搞砸:猫狗位置反了,或者数量不对,甚至动作混乱。

TTOM 就像给 AI 请了一位**“现场导演”兼“超级记性助理”**,让它能边做边学,越做越聪明。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心问题:AI 是个“健忘的画家”

目前的视频生成模型(比如 Wan2.1 或 CogVideoX)就像一位天赋异禀但有点健忘的画家

  • 优点:画出来的东西很逼真,光影、质感都很棒。
  • 缺点:当你给出一堆复杂的指令(比如“三个熊猫在吃竹子,一个向左跑,两个向右跑”),它经常记不住细节。它可能画成四个熊猫,或者方向全反了。
  • 旧方法的局限:以前的方法试图在 AI 画画的过程中,强行按住它的手(修改中间数据)来纠正方向。但这就像在画家作画时突然把画布撕开一角再补上,容易导致画面闪烁、崩坏,而且每画一张新画,都要重新教一遍,效率很低。

2. TTOM 的解决方案:导演 + 记忆库

TTOM 提出了两个核心招数:“测试时优化”(现场导演)和**“参数记忆”**(超级记性)。

第一招:现场导演(Test-Time Optimization, TTO)

当用户输入指令时,TTOM 不会直接让 AI 瞎画,而是先请一位**“剧本导演”**(大语言模型 LLM)来帮忙。

  • 剧本规划:导演先把文字指令拆解成具体的“分镜脚本”。比如,把“猫向左跑”变成具体的坐标和时间表:第 1 秒猫在左边,第 2 秒猫往左移了 10 像素……
  • 现场微调:在 AI 开始生成视频的过程中,TTOM 会拿着这个“分镜脚本”去检查 AI 的笔触。如果发现 AI 画的猫跑偏了,它不会重画,而是微调 AI 内部的几个“小旋钮”(轻量级参数),让 AI 的注意力重新聚焦到正确的方向上。
  • 比喻:这就像在拍电影时,导演发现演员走位错了,不是把演员换掉,而是轻轻推一下演员的肩膀,告诉他:“往左一点,对,就是这样!”

第二招:超级记性(Parametric Memorization)

这是 TTOM 最厉害的地方。以前的方法,导演教完这一场戏,演员(AI)就忘了,下一场戏还得重新教。
TTOM 给导演配了一个**“万能记忆库”**。

  • 存经验:当导演成功指导 AI 画好“猫向左跑”后,他会把这次成功的“微调旋钮设置”存进记忆库里,并贴上标签(比如“猫向左”)。
  • 调经验:下次用户再让 AI 画“猫向左跑”时,导演不用重新教,直接去记忆库里调出上次成功的设置,给 AI 装上。
  • 举一反三:如果这次指令稍微有点不同(比如“猫向左跑,但背景是雨天”),导演会先调用记忆库里的“猫向左”设置作为基础,然后再进行少量的微调。
  • 比喻:这就像一位老练的厨师。以前做一道“宫保鸡丁”,他需要试盐、试糖。做完一次后,他把“最佳配方”记在小本本上。下次再做,他直接照着配方做,又快又好。如果客人说“少放点辣”,他只需要在“最佳配方”基础上微调一点点,而不是从头开始摸索。

3. 为什么这个方法很牛?

  • 不用重新训练:它不需要把整个 AI 模型重新训练一遍(那太贵太慢了),只是在生成视频的那一瞬间,临时调整一下参数。
  • 越用越聪明:随着用户用得越多,记忆库里积累的“成功配方”就越多。AI 处理复杂场景(比如多物体互动、数字计数、空间关系)的能力会像滚雪球一样变强。
  • 灵活高效:记忆库支持“增、删、改、查”。如果某个配方过时了,可以删掉;如果空间满了,就删掉那些没人用的旧配方,腾出地方给新配方。

4. 实际效果如何?

论文在两个权威测试(T2V-CompBench 和 VBench)上做了实验:

  • 效果炸裂:在让 AI 理解“几个物体”、“谁在谁左边”、“谁在跑”这些复杂任务上,TTOM 让现有的顶级模型(如 Wan2.1-14B)的表现提升了 15% 到 80% 不等
  • 画面更稳:不仅指令听得更准,视频画面也没有因为强行修改而变得模糊或闪烁,保持了高质量。

总结

TTOM 就像是给 AI 视频生成器装上了一个“即时导航”和“经验笔记本”
以前 AI 画画是靠“猜”,猜错了就重来;现在 AI 画画是靠“查”和“学”,先查一下以前成功的经验,再根据当前指令微调一下。这让 AI 从“只会画大致的画”进化成了“能听懂复杂指令的导演”,让生成视频变得更加可控、精准和智能。