Arbitrary Generative Video Interpolation

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**“任意生成式视频插帧”（ArbInterp）的论文。为了让你轻松理解，我们可以把视频插帧想象成“在两个时间点之间填补故事”**。

🎬 核心问题：以前的方法太“死板”了

想象一下，你手里有两张照片：

起点：一个人站在起跑线上（第 0 秒）。
终点：这个人冲过了终点线（第 10 秒）。

以前的 AI 插帧技术就像是一个只会按固定剧本演戏的演员。

如果你说：“我要中间插 5 张图。”它只能给你第 2、4、6、8 秒的画面。
如果你说：“我要中间插 100 张图。”它只能给你第 0.1、0.2...秒的画面。
痛点：它不能灵活地回答：“我想看第 3.75 秒那个瞬间，或者我想看第 9.99 秒那个瞬间。”它只能按固定的步长（比如每 2 秒一张）来生成，非常不灵活。

🚀 我们的新方案：ArbInterp（任意插帧）

这篇论文提出的 ArbInterp 就像是一个拥有“时间遥控器”的超级导演。

你可以直接对它说：“我想看第 3.75 秒的画面”或者“我想看第 9.99 秒的画面”，甚至“我想看从第 0 秒到第 10 秒之间任意时刻的画面”。它不仅能生成，还能生成任意长度的视频片段。

为了实现这个“超能力”，作者用了两个聪明的招数：

1. 招数一：给时间贴上“真实标签” (TaRoPE)

以前的做法：AI 认为时间就是“第 1 帧、第 2 帧、第 3 帧”。就像数数一样，它只知道顺序，不知道具体的“时间值”。
ArbInterp 的做法：作者发明了一种叫 TaRoPE 的技术。
- 比喻：想象你在一条长绳子上打结。以前，AI 只知道“这是第 3 个结”。现在，AI 知道“这是绳子上 0.3 的位置”。
- 效果：无论你要生成多少帧，AI 都能精准地知道每个画面在时间轴上的真实位置（比如 0.25, 0.5, 0.75）。这让 AI 不再被固定的“步数”束缚，可以生成任意时间点的画面。

2. 招数二：把“长相”和“动作”分开管 (外观 - 运动解耦)

挑战：如果你要生成一个很长的视频（比如从第 0 秒到第 100 秒），AI 很难一次性画完。通常的做法是“分段画”：先画前 10 秒，再画后 10 秒。
问题：分段画容易导致“断片”。比如前一段结尾是“张三”，后一段开头突然变成了“李四”，或者动作突然卡顿了一下。
ArbInterp 的解法：
- 管长相（外观）：把上一段视频的最后一帧直接拿过来，作为下一段的“引子”。这就像接力赛，把接力棒（上一帧画面）直接传给下一棒，保证长相（衣服、背景、人物）完全一致，不会变脸。
- 管动作（运动）：从上一段视频里提取出“动作的精髓”（比如“正在加速跑”），把这些信息打包成“动作令牌”，传给下一段。这就像告诉下一段演员：“别管上一段具体怎么跑的，但你要保持‘加速’这个节奏。”
- 效果：这样既保证了画面连贯（不跳变），又保证了动作流畅（不卡顿），让长视频看起来像是一气呵成的。

🏆 实验结果：真的好用吗？

作者做了一个叫 MultiInterpBench 的考试，涵盖了从 2 倍速插帧到 32 倍速插帧的各种难度。

结果：ArbInterp 在所有测试中都完胜了以前的方法。
表现：
- 更清晰：生成的画面更逼真，没有模糊或鬼影。
- 更流畅：动作过渡非常自然，没有那种“卡顿”或“突变”的感觉。
- 更灵活：无论是想要 2 倍速还是 32 倍速，它都能完美应对。

💡 总结

简单来说，ArbInterp 就像是给视频插帧技术装上了**“时间自由”和“分段无缝衔接”**的翅膀。

以前：你只能按固定的格子填色。
现在：你可以指哪里填哪里，而且填出来的长画卷，每一笔都衔接得天衣无缝。

这项技术对于游戏（让画面更丝滑）、电影制作（随意调整节奏）以及未来的视频编辑工具来说，都是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《ARBITRARY GENERATIVE VIDEO INTERPOLATION》（任意生成式视频插值）的中文技术总结。

1. 研究背景与问题 (Problem)

视频帧插值 (VFI) 是视频创作中的核心任务，旨在根据给定的起始帧和结束帧生成中间连贯帧。现有的生成式 VFI 方法存在以下主要局限性：

固定插值范式：现有方法通常只能生成固定数量的中间帧（例如，只能插值 2 倍或 4 倍），无法在创建过程中动态调整帧率或视频时长。
缺乏时间灵活性：用户无法指定在任意时间点（timestamp）生成帧，限制了其在复杂场景下的应用灵活性。
长序列生成困难：在生成长视频或高倍率插值时，现有的分块生成方法容易导致片段之间出现外观不连贯或运动断裂的问题。
建模能力受限：固定帧率的范式难以对连续的运动场进行细粒度建模，导致生成的运动不够平滑。

2. 核心方法论 (Methodology)

作者提出了 ArbInterp，一种新颖的生成式视频插值框架，能够支持任意时间戳和任意长度的插值。其核心技术包括：

A. 时间感知旋转位置编码 (Timestamp-aware Rotary Position Embedding, TaRoPE)

原理：现有的 DiT（Diffusion Transformer）视频生成模型通常使用基于帧索引的旋转位置编码（RoPE）。ArbInterp 将帧的位置从离散的索引改为连续的归一化时间戳（范围 $[0, 1]$ ）。
机制：起始帧设为 $t=0$ ，结束帧设为 $t=1$ 。模型根据用户指定的任意时间戳 $t \in (0, 1)$ 来生成对应的中间帧。
优势：
- 无需引入额外参数，仅通过微调即可让预训练模型理解连续时间。
- 使模型能够感知帧在连续运动场中的真实相对位置，从而支持无限细粒度的时间控制。
- 支持任意倍率的插值（如 2x, 8x, 32x 甚至更高）。

B. 外观 - 运动解耦条件策略 (Appearance-Motion Decoupled Conditioning)

针对长序列或分段生成（Segment-wise generation）带来的片段间不连贯问题，作者设计了一种解耦策略：

外观一致性 (Appearance Consistency)：将上一段的最后一帧作为前缀帧 (Prefix Frame) 直接输入到当前段的生成过程中，确保视觉外观的无缝衔接。
运动连贯性 (Motion Coherence)：
- 引入运动语义提取器 (Motion Semantic Extractor, MSE)，从上一段的最后 $N$ 帧中提取运动语义特征。
- 利用 Q-Former 将特征压缩为固定的运动 Token (Motion Tokens)。
- 将这些运动 Token 通过交叉注意力机制注入到 DiT 的生成过程中，引导当前段保持与上一段一致的运动动态。
效果：在保持计算效率的同时，显著提升了长视频插值的时空连贯性。

C. 推理策略

为了适应不同长度的视频，ArbInterp 支持多种推理模式：

直接插值：适用于短序列，一次性生成所有中间帧。
分段插值：将长序列切分为不重叠的片段依次生成。
分层插值：先预测稀疏的关键帧（锚点），再在锚点之间进行插值，以更好地规划全局运动轨迹。

3. 主要贡献 (Key Contributions)

提出了 ArbInterp 范式：打破了固定插值数量的限制，实现了通过指定任意连续时间戳来控制生成帧的能力，极大地提升了生成式 VFI 的灵活性。
设计了 TaRoPE 模块：创新性地将时间戳融入 RoPE，使模型具备细粒度的时间感知能力，无需重新训练大规模模型即可迁移至插值任务。
提出了外观 - 运动解耦策略：有效解决了长序列生成中的片段拼接问题，实现了高质量、无缝的长视频插值。
构建了 MultiInterpBench 基准：建立了涵盖 2x 到 32x 甚至更高倍率的多尺度插值基准，全面评估了模型在不同场景下的泛化能力。

4. 实验结果 (Results)

数据集与设置：基于开源视频生成模型 Wan (Wang et al., 2025) 进行微调，使用 8 张 GPU 训练 20,000 步。构建了包含 552 个视频对的 MultiInterpBench 基准。
定量表现：
- 在 2x 到 32x 的所有插值倍率下，ArbInterp 在 FID、FVD、LPIPS 以及 VBench 的各项指标（主体一致性、背景一致性、运动平滑度等）上均显著优于现有的 SOTA 方法（如 LDMVFI, DynamiCrafter, TRF, GI 等）。
- 特别是在 32x 高倍率插值下，优势更加明显，证明了其在长序列生成中的优越性。
定性表现：
- 生成的中间帧在视觉上更加平滑、自然，能够准确反映用户指定的时间戳位置。
- 在流式插值（Streaming Interpolation）场景中，能够保持跨帧的时空一致性，解决了以往方法在长视频生成中的断裂问题。
消融实验：验证了 TaRoPE 比传统 MLP 注入时间信息更有效；证明了外观 - 运动解耦策略在提升运动平滑度和减少闪烁方面的关键作用。

5. 意义与影响 (Significance)

理论突破：证明了通过修改位置编码（TaRoPE）即可让生成模型理解连续时间场，为生成式视频模型的时间控制提供了新的思路。
应用价值：ArbInterp 极大地提升了视频编辑和创作的灵活性。用户不再受限于固定的帧率调整，可以根据需求自由生成任意时长、任意帧率的视频，特别适用于游戏开发、影视后期及动态内容生成。
未来方向：该工作为长视频生成和细粒度视频控制奠定了基础，未来可进一步结合文本引导，提升对复杂语义场景的控制能力。

总结：ArbInterp 通过引入时间感知的位置编码和外观 - 运动解耦机制，成功解决了生成式视频插值中“固定长度”和“长序列不连贯”的两大痛点，实现了真正意义上任意时间、任意长度的高质量视频插值。