DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

本文提出了 DiT4DiT,一种通过统一级联框架将视频扩散 Transformer 与动作扩散 Transformer 耦合的端到端视频 - 动作模型,它利用视频生成过程中的中间去噪特征作为动作预测的时空条件,在显著降低训练数据需求的同时实现了机器人控制任务中的最优性能与强泛化能力。

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DiT4DiT 的新机器人控制系统。为了让你轻松理解,我们可以把机器人学动作的过程,想象成**“学做菜”**。

🎬 核心故事:从“背菜谱”到“看视频学做菜”

1. 以前的机器人:只会“背菜谱”的笨学生

传统的机器人模型(叫 VLA 模型)就像是一个死记硬背菜谱的学生

  • 怎么学的? 它们主要看静态的图片和文字(比如:“苹果是红色的”、“把苹果拿起来”)。
  • 缺点是什么? 它们知道苹果长什么样,也知道“拿”这个动作的字面意思,但完全不懂物理规律。它们不知道苹果拿起来会晃动,不知道倒水时水流会受重力影响,也不知道把杯子叠高时重心不稳会倒。
  • 结果: 要让它学会复杂的动作,需要给它看成千上万次真实的“拿苹果”视频,训练成本极高,而且一旦换个环境(比如换个颜色的杯子),它可能就傻眼了。

2. DiT4DiT 的新方法:看“未来视频”的直觉大师

DiT4DiT 换了一种思路。它不再只背菜谱,而是先看一部“未来会发生什么”的生成式电影

  • 核心魔法: 它利用了一个强大的视频生成模型(就像现在的 Sora 或 Runway 那种 AI)。这个模型看过海量的视频,所以它天生就懂物理:知道物体怎么动、怎么碰撞、怎么受重力影响。
  • 怎么学的?
    1. 看视频: 机器人先看一段视频,预测“如果我做了这个动作,下一秒画面会变成什么样”。
    2. 抓灵感(关键创新):不需要等视频完全生成出来(那太慢了)。它就像在看电影时,在画面还没完全清晰、正在“去噪”的过程中,就敏锐地捕捉到了中间那些模糊但充满物理规律的特征
    3. 做动作: 它把这些“模糊的物理直觉”直接用来指导机械臂怎么动。

🌟 一个生动的比喻:
想象你要学骑自行车

  • 旧方法是:有人给你一张静态照片,告诉你“脚踩踏板,手握车把”,然后你上去试,摔了无数次才学会。
  • DiT4DiT 的方法是:你先看了一部慢动作的、甚至有点模糊的自行车骑行视频。虽然画面还没完全清晰,但你已经潜意识里感受到了“身体要倾斜”、“风在吹”、“车轮转动时的平衡感”。当你真正上车时,你的身体已经本能地知道该怎么保持平衡了,根本不需要摔很多次。

🚀 它是怎么工作的?(三个关键步骤)

  1. 双引擎驱动(Dual-DiT):
    它有两个大脑,一个是**“视频大脑”(负责预测未来画面),一个是“动作大脑”(负责控制机械臂)。这两个大脑是同时训练**的,就像两个搭档,一个负责看路,一个负责开车,配合得天衣无缝。

  2. 不追求完美画面,只抓“物理感觉”:
    以前有些方法非要等视频生成得清清楚楚才去学动作,这太慢了。DiT4DiT 很聪明,它在视频生成的中间阶段(画面还有点模糊,但物理运动趋势已经出来了)就提取特征。

    • 比喻: 就像你听一首歌,不需要等整首歌放完,听到前几个音符的旋律走向,你就知道这首歌是悲伤的还是欢快的,并且知道接下来该怎么跳舞。
  3. 三时步设计(Tri-timestep):
    它给“看视频”和“做动作”设定了不同的时间节奏。看视频时,它慢慢欣赏全过程;做动作时,它只锁定那个最关键的瞬间(比如杯子刚要碰到桌面的那一帧)来提取信息。这让训练效率极高。

🏆 它有多厉害?(成绩单)

这篇论文在几个著名的机器人测试中,把 DiT4DiT 和目前最顶尖的机器人(比如 GR00T)做了对比,结果非常惊人:

  • 学得快(省数据): 它只需要别人 1/10 的训练数据就能达到同样的效果。就像别人要背 1000 道题才能学会,它看 100 道题的“解题思路”(视频规律)就学会了。
  • 练得稳(收敛快): 它的训练速度比对手快 7 倍
  • 适应性强(零样本泛化):
    • 场景: 如果训练时用的是红杯子,测试时换成蓝杯子,或者把杯子换成碗,甚至把三个杯子换成四个。
    • 结果: 传统的机器人(VLA)直接“死机”或乱撞,成功率跌到 0%。而 DiT4DiT 依然能稳稳地把东西放好,成功率高达 70%-90%。因为它学的是**“物体怎么动”**的物理规律,而不是死记硬背“红杯子”的样子。
  • 真实世界表现: 在真实的 Unitree G1 人形机器人上,它也能完美完成叠杯子、插花瓶、整理抽屉等精细动作。

💡 总结

DiT4DiT 的核心思想是:与其让机器人死记硬背动作,不如让它先“看懂”世界是如何运动的。

它通过让机器人**“边看未来视频,边学做动作”,把视频生成模型里蕴含的物理常识**(重力、碰撞、惯性)直接转化为了机器人的控制技能。这不仅让机器人学得更快、更省数据,还让它们在面对从未见过的物体和环境时,依然能像人类一样灵活应对。

这就好比,以前机器人是**“背诵说明书”,现在 DiT4DiT 让它们变成了“拥有物理直觉的艺术家”**。