PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

本文提出了 PhyPrompt,一种基于强化学习的两阶段提示词优化框架,通过物理思维链微调与动态奖励课程策略,在仅使用 7B 参数模型的情况下显著提升了文本生成视频的物理合理性,同时兼顾语义忠实度并超越了更大规模的通用模型。

Shang Wu, Chenwei Xu, Zhuofan Xia, Weijian Li, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Han Liu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一位导演,想指挥一个超级厉害的 AI 电影摄影师(文生视频模型)拍一段视频。你只需要说一句:“把红酒倒进杯子里。”

现在的困境:
虽然这个 AI 摄影师画技高超,画面精美,但它是个“物理白痴”。当你让它拍倒酒时,它可能会拍出这样的画面:红酒像水流一样从瓶口流出,但杯子里的酒液面却纹丝不动,或者酒直接穿过了杯子。这就像拍了一部科幻片,完全违背了现实世界的物理定律(比如重力、液体守恒)。

为什么会出现这个问题?
论文发现,问题不在摄影师(AI 模型)本身,而在你给它的指令(Prompt)太简单了
如果你手动把指令改成:“把红酒缓缓、平稳地倒进玻璃杯,杯中的酒液面会 steadily 上升",AI 就能拍出完美的物理视频。
但是,让每个人都去当“物理专家”并精心打磨每一个指令,既费时又费力,根本没法大规模使用。

PhyPrompt 的解决方案:
这篇论文提出了一个叫 PhyPrompt 的“智能编剧助手”。它就像一个经过特训的超级导演助理,专门负责把你简单的指令,自动改写成符合物理常识的“完美剧本”。

它是怎么做到的呢?我们可以把它的工作流程想象成**“先学走路,再学跑步”的两阶段特训**:

第一阶段:死记硬背物理知识(监督微调 SFT)

就像让一个学生先背诵物理课本。
研究人员给这个 AI 助手准备了一套特殊的教材(Chain-of-Thought 数据集),里面全是“原指令 vs. 物理原理 vs. 改写后的完美指令”的例子。

  • 例子: 输入“倒酒”,教材告诉它:“哦,倒酒涉及重力,液体必须填满容器,液面要上升。”
  • 结果: 助手学会了在改写时,脑子里要有物理概念。

第二阶段:动态奖励的“闯关游戏”(强化学习 RL)

这是最精彩的部分。如果一开始就要求助手既要把故事讲清楚(语义),又要物理完美,它可能会晕头转向,顾此失彼。
所以,PhyPrompt 设计了一个**“动态奖励课程”**,就像玩游戏通关:

  1. 新手村(早期): 助手只要能把故事讲通顺(比如“酒倒进杯子”),就能得高分。这时候不强迫它考虑物理细节,先保证它没跑题。
  2. 进阶区(后期): 当助手已经能讲好故事了,奖励规则变了。现在,只有当它把物理细节(比如“液面上升”、“水流顺畅”)也加进去时,才能得高分。

这个设计的妙处在于:
它避免了“顾此失彼”。就像教孩子画画,先教他“画个苹果”(语义),等画得像了,再教他“苹果要有阴影和高光才立体”(物理)。如果一开始就要求“既要像苹果,又要光影完美”,孩子可能连苹果都画不出来。

惊人的效果

这个“智能助理”非常强大,甚至不需要重新训练那个昂贵的 AI 摄影师(视频生成模型),它只需要作为一个“中间人”存在:

  • 用户 -> PhyPrompt(改写指令) -> AI 摄影师(生成视频)
  • 结果: 它用只有 70 亿参数的小模型,打败了像 GPT-4o 这样几百亿参数的大模型,甚至打败了 100 倍参数量的 DeepSeek-V3。
  • 通用性: 它就像一把万能钥匙,不需要为不同的 AI 摄影师(如 Lavie, CogVideoX 等)单独学习,直接就能用,而且效果立竿见影。

总结

PhyPrompt 就像是一个懂物理的“翻译官”
它把人类简单、模糊的指令,自动翻译成 AI 摄影师能听懂的、符合物理定律的“专业剧本”。它通过一种聪明的“分步走”策略,让 AI 既没忘了原本想拍什么(语义),又学会了怎么拍才符合现实(物理),从而让生成的视频从“看起来像真的”变成了“真的符合物理规律”。

这对于未来需要高度真实感的领域(比如机器人训练、科学模拟、教育视频)来说,是一个巨大的进步。