Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPATIALALIGN 的新方法，旨在解决当前 AI 生成视频时的一个“大毛病”：AI 很会画漂亮的图，但很笨拙地理解“空间关系”和“动作方向”。

简单来说，就是现在的 AI 视频生成器（Text-to-Video）经常“听错指令”。如果你让它生成“一只狐狸先在树桩右边，然后走到左边”，它可能会生成狐狸原地不动，或者莫名其妙跑到树桩后面去。

为了解决这个问题，作者们设计了一套让 AI“自我进化”的教程。我们可以用以下几个生动的比喻来理解：

1. 核心问题：AI 是个“路痴”画家

想象一下，你让一个非常有才华但方向感极差的画家（现有的 AI 模型）画画。

你的指令：“先画一只狐狸在树桩的右边，然后让它走到树桩的左边。”
画家的表现：他画得很美，狐狸毛茸茸的，树桩也很逼真。但是，狐狸可能一开始就在左边，或者它根本没动，甚至可能飞到了树桩上面。
原因：现有的 AI 太关注“画面美不美”（比如光影、色彩），而忽略了“逻辑对不对”（比如左右、上下、前后）。

2. 解决方案：SPATIALALIGN（空间对齐）

作者给这位画家请了一位“几何学教练”，教他如何理解空间逻辑。这个系统主要由三部分组成：

A. 新的“评分尺子”：DSR-SCORE（几何标尺）

以前，我们怎么判断 AI 画得对不对？通常是把视频发给另一个 AI（视觉语言模型，VLM）看，问它：“狐狸走到左边了吗？”

问题：这个“考官 AI"也很笨，经常看走眼，或者为了讨好你乱打分。
新方法：作者发明了一把**“几何标尺”**。
- 它不靠“感觉”去猜，而是像数学老师一样，直接测量狐狸和树桩的坐标。
- 它计算狐狸的中心点是不是真的从“右边”移动到了“左边”。
- 比喻：以前是问“你觉得这画得像吗？”，现在是直接拿尺子量“狐狸的脚是不是跨过了中线”。这把尺子叫 DSR-SCORE，它更精准、更客观。

B. 训练方法：DPO（直接偏好优化）

有了尺子，怎么教 AI 变聪明呢？

传统方法（死记硬背）：给 AI 看很多正确的视频，让它模仿。但这就像让学生死记硬背答案，它可能只是背住了“狐狸在树桩旁”这个画面，却没学会“怎么移动”。
新方法（二选一）：
1. 让 AI 根据指令生成两个视频（一个可能走对了，一个走错了）。
2. 用刚才那把“几何标尺”去量，分数高的叫“赢家”，分数低的叫“输家”。
3. 告诉 AI：“你看，这个‘赢家’视频里狐狸走对了路，那个‘输家’走错了。你要向赢家学习，远离输家。”
4. 通过这种**“优胜劣汰”**的对比训练，AI 慢慢就学会了如何控制方向。

C. 防止“走火入魔”：零阶正则化（Zeroth-Order Regularization）

在训练过程中，作者发现 AI 为了拿高分，可能会耍小聪明（比如把狐狸画得特别大，或者把背景涂黑，以此在数学计算上“作弊”拿高分，但画面很难看）。

解决办法：他们加了一个“锚点”。告诉 AI：“你可以改进方向，但不能把原本画得很好的部分（比如狐狸的长相、画面的美感）给毁了。”
比喻：就像教孩子跑步，你可以让他跑得更快（改进方向），但不能让他把鞋子跑丢了或者把腿跑断了（保持画质）。这个“锚点”保证了 AI 在变聪明的同时，依然保持高颜值。

3. 成果：AI 终于“开窍”了

经过这套方法的训练，AI 生成的视频有了质的飞跃：

以前：狐狸在树桩右边，然后……它还在右边，或者飞到了天上。
现在：狐狸稳稳地站在树桩右边，然后真的向左走，最后停在树桩左边。

总结

这篇论文就像给 AI 视频生成器装上了一个**“空间导航仪”。
它不再依赖模糊的“感觉”来判断对错，而是用数学几何作为标尺，通过“选优汰劣”**的方式，教会 AI 理解“左、右、上、下”这些动态的空间变化。

一句话概括：以前的 AI 视频是“看着像那么回事，但逻辑是乱的”；现在的 SPATIALALIGN 让 AI 变成了“既好看，又懂逻辑”的导演。

Each language version is independently generated for its own context, not a direct translation.

SPATIALALIGN：视频生成中动态空间关系对齐技术总结

1. 研究背景与问题定义 (Problem)

核心问题：
当前的文本到视频（Text-to-Video, T2V）生成模型虽然能生成高质量的视觉内容，但在理解并执行**动态空间关系（Dynamic Spatial Relationships, DSR）**指令方面表现不佳。DSR 指的是文本提示中描述的对象随时间变化的空间位置关系（例如：“一只狐狸起初在树桩的右侧，然后移动到树桩的左侧”）。

现有挑战：

现有模型失效： 最先进的 T2V 模型（如 Wan2.1, CogVideoX 等）往往无法可靠地捕捉简单的 DSR 指令，导致生成的视频中物体运动轨迹与提示不符（例如物体停在原地、移动方向错误或初始位置错误）。
评估困难： 现有的评估方法主要依赖视觉语言模型（VLM）来判断空间关系，但研究发现 VLM 在动态场景下的空间推理能力有限，评估结果不可靠。
训练策略局限： 传统的监督微调（SFT）难以直接优化非像素级的抽象概念（如空间关系），且容易过拟合或导致画质下降；而在线强化学习（如 PPO）计算成本过高。

2. 方法论 (Methodology)

本文提出了 SPATIALALIGN，一个基于自改进框架的解决方案，旨在通过**零阶正则化直接偏好优化（Zeroth-Order Regularized DPO）**来增强 T2V 模型的 DSR 能力。该方法包含三个核心组件：

2.1 基于几何的评估指标：DSR-SCORE

为了解决 VLM 评估不可靠的问题，作者设计了一个基于几何原理的量化指标 DSR-SCORE。

原理： 利用现成的目标检测器（GroundedSAM）和追踪器提取视频中动物和静态物体的边界框（Bounding Boxes）。
计算过程：
1. 静态空间关系分数 (SSR-Score)： 计算每一帧中物体与动物边界框中心之间的归一化距离和方向余弦，量化该帧是否符合特定的空间关系（如“左侧”、“顶部”）。
2. 动态评分： 分析整个视频序列中 SSR 分数的变化趋势。理想的 DSR 视频应呈现“交叉模式”：初始 SSR 分数随时间下降，最终 SSR 分数随时间上升。
3. 最终得分： 结合初始/最终帧的平均分数以及分数变化的梯度（Gap），计算出一个 [0, 1] 区间的 DSR-SCORE。分数越高，表示视频越符合提示中的动态空间变化。

2.2 数据筛选与偏好对构建

使用预训练模型生成多个视频样本。
利用 DSR-SCORE 对样本进行评分。
设定阈值 $\tau_{train}$ ，将高分样本标记为“赢家（Winner）”，低分样本标记为“输家（Loser）”，构建偏好对数据。
过滤掉检测失败或无效的视频样本，确保训练数据的质量。

2.3 零阶正则化 DPO 训练策略

采用 Direct Preference Optimization (DPO) 进行微调，但针对 DSR 任务进行了关键改进：

DPO 损失： 利用偏好对直接优化模型，使其更倾向于生成符合 DSR 的视频，无需显式的奖励模型。
零阶正则化 (Zeroth-Order Regularization, $L_{ZO}$ )：
- 问题： 纯 DPO 训练可能导致“似然位移（Likelihood Displacement）”，即模型为了最大化偏好差距而牺牲了基础生成质量（如颜色过饱和、物体变形）。
- 解决方案： 引入 $L_{ZO}$ 项，将参考模型（Reference Model）的预测作为锚点，约束微调后的模型不要偏离参考模型太远。这相当于一种“保持基础生成能力”的正则化，防止模型为了迎合空间关系而破坏视频的自然度和视觉质量。
最终损失函数： $L = L_{DPO} + \lambda_{ZO} L_{ZO}$

3. 主要贡献 (Key Contributions)

DSR-SCORE 指标： 提出了一种基于几何原理的、可解释的、细粒度的评估指标，比依赖 VLM 的方法更可靠、更准确，能够量化视频与动态空间指令的对齐程度。
SPATIALALIGN 框架： 首次将 DPO 应用于 T2V 模型的 DSR 对齐任务，并创新性地引入了零阶正则化项，有效解决了 DPO 训练中常见的质量退化问题，实现了无需真实视频数据即可提升模型能力。
DSR-DATASET 基准数据集： 构建了一个包含多样化 DSR 场景（动物与静态物体的相对运动）的受控数据集，用于训练和评估，填补了该领域缺乏标准基准的空白。

4. 实验结果 (Results)

定量评估： 在 DSR-DATASET 上，SPATIALALIGN 微调后的模型（基于 Wan2.1-1.3B）在 Correctness@0.7（DSR-SCORE $\ge$ 0.7 的视频比例）指标上达到了 58.5%，远超基线模型（如 Wan2.1 原始版 12.5%，HunyuanVideo 49.0% 等）。
定性表现： 可视化结果显示，微调后的模型能准确执行“从左侧移动到右侧”、“从顶部跳下”等复杂指令，而基线模型常出现方向错误、位置未变或物体消失等问题。
质量保持： 在提升空间对齐能力的同时，模型在 ID 一致性（ID Consistency）、CLIP-IQA 和成像质量（Imaging Quality）等指标上保持了与基线相当的水平，证明了正则化策略的有效性。
消融实验：
- 证明了 DSR-SCORE 作为奖励信号优于 VLM 评分。
- 证明了包含“过渡过程”信息（Gap 值）的完整 DSR-SCORE 比仅使用端点分数更有效。
- 证明了零阶正则化（ $L_{ZO}$ ）比简单的 SFT 正则化更能稳定训练并避免画质下降。

5. 意义与影响 (Significance)

理论突破： 证明了通过几何约束和偏好优化，可以显著提升生成模型对物理世界动态关系的理解能力，而不仅仅是追求美学质量。
通用性潜力： 虽然当前聚焦于简单的 DSR，但该方法提出的“将复杂关系需求转化为连续、可自动计算的几何信号”的思路，为未来生成符合物理规律（如碰撞、重力、复杂交互）的视频提供了通用范式。
应用价值： 对于机器人模拟、物理世界建模、交互式叙事生成等需要精确空间控制的应用场景具有重要的推动作用。

总结： SPATIALALIGN 通过引入几何感知的评估指标和创新的正则化 DPO 训练策略，成功解决了当前 T2V 模型在动态空间关系生成上的短板，为构建更智能、更符合物理常识的视频生成模型迈出了关键一步。

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation