Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

该论文提出了一种无需训练的自适应低通引导(ALG)方法,通过在去噪早期对输入图像进行低通滤波以抑制高频细节的过早暴露,从而有效解决了图像到视频生成中运动动态不足的问题,在显著提升视频动态性的同时保持了图像质量和文本对齐度。

June Suk Choi, Kyungmin Lee, Sihyun Yu, Yisol Choi, Jinwoo Shin, Kimin Lee

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个让很多 AI 视频生成器头疼的“老毛病”:让图片动起来时,画面太“僵”了

想象一下,你给 AI 一张照片,让它变成一段视频。现在的 AI(特别是那些基于“图像转视频”技术的)往往做得太“听话”了:它死死地盯着照片里的每一个细节,生怕画错了,结果生成的视频就像一张会动的照片,人物和物体几乎不动,缺乏生命力。

这篇论文的作者发现并解决了一个有趣的问题,他们的方法叫 ALG(自适应低通引导)。我们可以用几个生动的比喻来理解它:

1. 问题出在哪?“过度关注细节”的陷阱

想象你在教一个画家画画。

  • 正常的视频生成(Text-to-Video):你告诉画家“画一只在奔跑的狗”。画家脑子里有狗奔跑的动态概念,画出来的狗很有活力。
  • 现在的图像转视频(Image-to-Video):你给画家一张高清的狗的照片,说“让这张照片动起来”。
    • 现在的 AI 就像是一个强迫症画家。它一看到照片,立刻就把照片里每一根狗毛、每一处光影都死死地“锁”在脑子里。
    • 因为它太关注这些高频细节(比如毛发的纹理、锐利的边缘),它不敢让狗的大腿大幅度摆动,生怕一动就破坏了照片的质感。
    • 结果:狗确实“动”了,但只是原地抖了一下,看起来像定格动画,非常僵硬。

作者发现,这是因为 AI 在生成的最初阶段,就被照片里那些过于清晰的细节“带偏了”,过早地陷入了一个“捷径”(Shortcut),直接锁死了画面,导致后面没法产生大幅度的动作。

2. 他们的解决方案:ALG(自适应低通引导)

为了解决这个问题,作者想出了一个聪明的办法:“先模糊,后清晰”

这就好比你要教那个强迫症画家动起来:

  1. 第一阶段(起步时):给画家戴上一副“磨砂眼镜”。

    • 在 AI 刚开始生成视频的前几秒(去噪过程的前期),我们先把输入的照片模糊化(去掉那些锐利的毛发细节,只保留大致的轮廓和颜色)。
    • 这时候,画家(AI)看不清细节了,它反而敢放开手脚去构思“狗奔跑”的大动作。因为它看不见那些细毛,所以它不会为了保毛而牺牲动作。
    • 比喻:就像你蒙住眼睛跳舞,反而能跳出更大幅度的动作,不用担心踩到地上的小石子。
  2. 第二阶段(快结束时):摘下眼镜,看清细节。

    • 当视频的大动作(比如狗跑起来的姿势、背景的变化)已经确定下来后,我们在生成的最后阶段,把原本清晰的照片细节重新“加”回去。
    • 这时候,AI 已经知道“狗在跑”这个大局了,它只需要把清晰的毛发和光影填进去,既保留了动作的活力,又恢复了照片的清晰度。

ALG 的核心就是: 在需要“动”的时候,故意让画面“模糊”一点,给动作留出空间;在需要“稳”的时候,再把细节补回来。

3. 效果如何?

作者用这个方法测试了目前最火的几个 AI 视频模型(比如 Wan 2.1, Wan 2.2, LTX-Video)。

  • 以前:生成的视频像“僵尸”,动得很慢,或者根本不动。
  • 现在(用了 ALG)
    • 动作更自然:人物走路、动物奔跑、风吹树叶,动态感提升了 33% 以上!
    • 画质没损失:虽然中间过程模糊了一下,但最终出来的视频依然清晰,甚至因为动作更流畅,看起来质量更好了。
    • 不需要重新训练:这是一个“外挂”式的技巧,不需要重新训练庞大的 AI 模型,直接用在生成过程中就行,非常省钱省力。

总结

这篇论文就像给 AI 视频生成器开了一剂**“去僵化”的良药**。

它告诉 AI:“别太在意一开始的细节,先让动作‘活’起来,细节我们最后再补。”通过这种**“先模糊引导,后清晰还原”**的策略,让 AI 生成的视频从“死板的照片”变成了“生动的电影”。

一句话概括:为了让 AI 视频动起来,我们故意让它先“看不清”细节,等它学会怎么动了,再给它“看清”细节,结果视频既生动又清晰。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →