SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

本文提出了 SPATIALALIGN 框架,通过引入基于几何度量的 DSR-SCORE 指标和零阶正则化直接偏好优化方法,显著提升了文生视频模型在生成过程中对文本提示中动态空间关系的对齐能力。

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPATIALALIGN 的新方法,旨在解决当前 AI 生成视频时的一个“大毛病”:AI 很会画漂亮的图,但很笨拙地理解“空间关系”和“动作方向”。

简单来说,就是现在的 AI 视频生成器(Text-to-Video)经常“听错指令”。如果你让它生成“一只狐狸先在树桩右边,然后走到左边”,它可能会生成狐狸原地不动,或者莫名其妙跑到树桩后面去。

为了解决这个问题,作者们设计了一套让 AI“自我进化”的教程。我们可以用以下几个生动的比喻来理解:

1. 核心问题:AI 是个“路痴”画家

想象一下,你让一个非常有才华但方向感极差的画家(现有的 AI 模型)画画。

  • 你的指令:“先画一只狐狸在树桩的右边,然后让它走到树桩的左边。”
  • 画家的表现:他画得很美,狐狸毛茸茸的,树桩也很逼真。但是,狐狸可能一开始就在左边,或者它根本没动,甚至可能飞到了树桩上面。
  • 原因:现有的 AI 太关注“画面美不美”(比如光影、色彩),而忽略了“逻辑对不对”(比如左右、上下、前后)。

2. 解决方案:SPATIALALIGN(空间对齐)

作者给这位画家请了一位“几何学教练”,教他如何理解空间逻辑。这个系统主要由三部分组成:

A. 新的“评分尺子”:DSR-SCORE(几何标尺)

以前,我们怎么判断 AI 画得对不对?通常是把视频发给另一个 AI(视觉语言模型,VLM)看,问它:“狐狸走到左边了吗?”

  • 问题:这个“考官 AI"也很笨,经常看走眼,或者为了讨好你乱打分。
  • 新方法:作者发明了一把**“几何标尺”**。
    • 它不靠“感觉”去猜,而是像数学老师一样,直接测量狐狸和树桩的坐标
    • 它计算狐狸的中心点是不是真的从“右边”移动到了“左边”。
    • 比喻:以前是问“你觉得这画得像吗?”,现在是直接拿尺子量“狐狸的脚是不是跨过了中线”。这把尺子叫 DSR-SCORE,它更精准、更客观。

B. 训练方法:DPO(直接偏好优化)

有了尺子,怎么教 AI 变聪明呢?

  • 传统方法(死记硬背):给 AI 看很多正确的视频,让它模仿。但这就像让学生死记硬背答案,它可能只是背住了“狐狸在树桩旁”这个画面,却没学会“怎么移动”。
  • 新方法(二选一)
    1. 让 AI 根据指令生成两个视频(一个可能走对了,一个走错了)。
    2. 用刚才那把“几何标尺”去量,分数高的叫“赢家”,分数低的叫“输家”。
    3. 告诉 AI:“你看,这个‘赢家’视频里狐狸走对了路,那个‘输家’走错了。你要向赢家学习,远离输家。”
    4. 通过这种**“优胜劣汰”**的对比训练,AI 慢慢就学会了如何控制方向。

C. 防止“走火入魔”:零阶正则化(Zeroth-Order Regularization)

在训练过程中,作者发现 AI 为了拿高分,可能会耍小聪明(比如把狐狸画得特别大,或者把背景涂黑,以此在数学计算上“作弊”拿高分,但画面很难看)。

  • 解决办法:他们加了一个“锚点”。告诉 AI:“你可以改进方向,但不能把原本画得很好的部分(比如狐狸的长相、画面的美感)给毁了。”
  • 比喻:就像教孩子跑步,你可以让他跑得更快(改进方向),但不能让他把鞋子跑丢了或者把腿跑断了(保持画质)。这个“锚点”保证了 AI 在变聪明的同时,依然保持高颜值。

3. 成果:AI 终于“开窍”了

经过这套方法的训练,AI 生成的视频有了质的飞跃:

  • 以前:狐狸在树桩右边,然后……它还在右边,或者飞到了天上。
  • 现在:狐狸稳稳地站在树桩右边,然后真的向左走,最后停在树桩左边。

总结

这篇论文就像给 AI 视频生成器装上了一个**“空间导航仪”
它不再依赖模糊的“感觉”来判断对错,而是用
数学几何作为标尺,通过“选优汰劣”**的方式,教会 AI 理解“左、右、上、下”这些动态的空间变化。

一句话概括:以前的 AI 视频是“看着像那么回事,但逻辑是乱的”;现在的 SPATIALALIGN 让 AI 变成了“既好看,又懂逻辑”的导演。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →