LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LikePhys 的新方法，用来给现在的“视频生成 AI"（比如那些能根据文字生成视频的模型）做一场**“物理常识考试”**。

简单来说，现在的 AI 画视频画得很美，但经常犯一些连小学生都不会犯的“物理错误”（比如球掉在地上不反弹，或者影子飞到了天上）。这篇论文就是为了解决“怎么科学地给这些 AI 的物理常识打分”这个问题。

我们可以用几个生动的比喻来理解这篇论文的核心内容：

1. 核心难题：如何区分“画得像”和“懂物理”？

想象一下，你让两个画家画“苹果从树上掉下来”。

画家 A（懂物理）： 苹果垂直下落，落地后弹起，速度越来越慢。
画家 B（不懂物理）： 苹果像羽毛一样飘下来，或者落地后直接穿过了地面。

如果只看最终画出来的图，两个画家可能画得都很漂亮，颜色都很鲜艳。传统的评估方法就像让一个“评论家”（比如另一个 AI 或人类）去挑错，但这很容易受干扰：评论家可能觉得“画家 B 的苹果颜色更鲜艳”，从而误以为他画得更好，忽略了苹果穿地这个物理错误。

这篇论文的突破点在于： 它不只看“画出来的结果”，而是去检查画家的**“内心想法”**（也就是 AI 模型内部的概率计算）。

2. LikePhys 的魔法：用“去噪”来测“直觉”

视频生成 AI（扩散模型）的工作原理有点像**“从一团乱麻中还原出清晰的图像”**。

它先把一张清晰的视频加满噪点（变成雪花屏）。
然后它尝试一步步把噪点去掉，还原出视频。

LikePhys 的巧妙之处在于：
它准备了一对视频：

正版视频： 符合物理定律（苹果正常下落）。
盗版视频： 违反物理定律（苹果穿地而过），但长得几乎一模一样（颜色、光影、物体形状都一样，只有运动轨迹是错的）。

然后，它把这两个视频都扔进 AI 的“去噪机器”里，看 AI 觉得哪个视频更“自然”（即哪个视频在 AI 眼里概率更高，去噪时的“错误率”更低）。

如果 AI 真的懂物理： 它会觉得“正版视频”更自然，去噪时更顺手（错误率低）；而“盗版视频”让它很困惑（错误率高）。
如果 AI 不懂物理： 它可能会觉得两个视频差不多，甚至因为盗版视频看起来更“新奇”而更喜欢盗版。

比喻： 这就像让一个老练的品酒师盲测两杯酒。一杯是正宗红酒，一杯是加了奇怪化学剂的红酒（味道怪但颜色一样）。如果品酒师能敏锐地尝出哪杯更“顺喉”（概率更高），说明他懂酒；如果两杯他都喝不出来区别，说明他不懂。

3. 考试的题库：12 种物理场景

为了公平考试，作者们用电脑模拟软件（Blender）制作了12 种场景，涵盖了四大类物理知识：

硬碰硬（刚体）： 球撞球、球落地、积木滑动。
软绵绵（连续体）： 布被风吹动、布搭在柱子上。
流体力学： 水滴落下、水龙头流水、河流流动。
光影魔术： 影子怎么动、影子怎么转。

每一组场景里，都有“正确版”和“错误版”（比如影子突然消失，或者水流倒流）。

4. 考试成绩单：谁在裸泳？

作者用这个方法给目前最火的 12 个视频生成模型（如 CogVideoX, Hunyuan, Wan 等）进行了排名。

发现 1：模型越大，物理越懂。 就像学生读书越多，常识越丰富。最新的、参数最大的模型（如 Hunyuan T2V, Wan2.1）得分最高，它们更不容易犯低级物理错误。
发现 2：有些物理很难。 模型对“影子”和“刚体碰撞”学得不错，但对“流体”（水怎么流）和“复杂布料”还是经常出错。这就像学生擅长做数学题，但做物理实验时经常手忙脚乱。
发现 3：这个方法很准。 作者还找了人类来当裁判，结果发现 LikePhys 的打分和人类的直觉非常一致。而且，它完全不需要重新训练模型，也不需要人类去一个个看视频，是全自动的“零样本”测试。

5. 总结与意义

LikePhys 就像给视频 AI 装了一个“物理直觉检测仪”。

以前： 我们只能凭感觉说“这个视频看起来有点假”，或者让另一个 AI 瞎猜。
现在： 我们可以精确地算出，这个 AI 在“水怎么流”这个问题上，比那个 AI 差了多少；或者这个 AI 是不是真的学会了重力，还是只是死记硬背了画面的样子。

这对未来意味着什么？
如果你想让 AI 去模拟真实的物理世界（比如帮机器人训练、帮自动驾驶模拟路况），你就需要一个能真正“懂物理”的 AI。LikePhys 告诉我们，现在的 AI 正在进步，但离真正的“物理世界模拟器”还有很长的路要走。它帮助开发者知道该往哪里努力（比如多训练流体数据），而不是盲目地增加模型大小。

一句话总结：
这篇论文发明了一种**“不靠眼睛看，靠数学算”的方法，专门用来检测视频生成 AI 到底是不是真的“懂物理”，还是仅仅在“假装懂物理”**。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文 《LikePhys: 通过似然偏好评估视频扩散模型中的直觉物理理解》。该论文提出了一种无需训练（training-free）的评估方法，旨在解决当前视频生成模型在物理规律理解方面的评估难题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：视频扩散模型（VDMs）虽然能生成视觉上逼真的视频，但往往缺乏对底层物理规律（如重力、动量守恒、流体动力学等）的深刻理解，导致生成的视频包含物理上不可能发生的现象（如物体穿模、反重力运动等）。
评估困境：现有的评估方法存在显著缺陷：
- 基于生成的评估：依赖视觉语言模型（VLM）或人类对生成视频进行判断，容易受到视觉外观（Visual Appearance）的干扰，难以将“物理正确性”与“视觉美感”解耦。
- 基于重建的评估：传统方法依赖条件生成或像素级重建，难以直接应用于文本到视频（Text-to-Video）的生成模型。
- 主观偏差：VLM 的判断往往带有主观偏见和解释方差。
目标：开发一种能够客观、解耦视觉外观、直接衡量模型对物理分布学习程度的评估指标。

2. 方法论：LikePhys (Methodology)

作者提出了 LikePhys，一种基于**似然偏好（Likelihood Preference）**的评估框架。其核心思想是：如果一个模型真正理解了物理规律，它应该给符合物理定律的视频序列分配更高的概率（即更低的去噪损失），而给违反物理定律的序列分配更低的概率。

核心假设：
- 设 $p_{\text{phys}}(x)$ 为严格遵循物理定律的视频分布。
- 若模型 $p_\theta$ 具备完美的直觉物理理解，则对于任何成对的（有效样本 $x^+$ ，无效样本 $x^-$ ），应满足 $p_\theta(x^+) > p_\theta(x^-)$ 。
- 在扩散模型中，去噪损失（Denoising Loss）是负对数似然（Negative Log-Likelihood）的变分下界（ELBO）代理。因此，更低的去噪损失意味着更高的似然度。
评估流程：
1. 构建基准数据集：使用 Blender 渲染器构建包含 12 种场景的合成数据集，涵盖四个物理领域：刚体力学、连续介质力学、流体动力学和光学效应。
2. 成对样本生成：针对每个场景，生成“有效”（符合物理）和“无效”（引入受控的物理违规，如穿模、超弹性反弹、时间倒流等）的视频对。关键点是保持视觉外观一致，仅改变物理参数，确保似然差异仅源于物理违规。
3. 似然估计：将成对视频输入预训练的扩散模型，计算去噪损失。
4. 计算指标 (PPE)：定义似然偏好误差（Plausibility Preference Error, PPE）。
  - 如果在成对比较中，模型给无效样本分配了比有效样本更低的损失（即更高的似然），则记为一次错误。
  - PPE 是所有成对比较中错误率的平均值。
  - PPE 越低，表示模型的直觉物理理解能力越强。

3. 主要贡献 (Key Contributions)

提出 LikePhys 方法：一种无需训练、基于似然偏好的评估方法，利用扩散模型的密度估计能力，成功将物理理解与视觉外观解耦，且与人类偏好高度一致。
构建专用基准数据集：创建了一个包含 12 个场景、覆盖 4 个物理领域的合成基准，每个场景都设计为在视觉匹配条件下隔离特定的物理违规。
全面的实证分析：
- 对 12 个最先进的视频扩散模型进行了基准测试。
- 分析了模型架构（如 UNet vs. DiT）、模型规模、训练数据量、推理设置（帧数、CFG 强度）对物理理解的影响。
- 揭示了不同物理领域（如流体 vs. 刚体）和物理定律（如时间连续性 vs. 几何不变性）上的能力差异。

4. 实验结果 (Results)

模型排名：
- 基于 DiT（Diffusion Transformer）架构的最新模型（如 Hunyuan T2V, Wan2.1-14B, CogVideoX1.5-5B）表现最好，PPE 显著低于 50% 的随机猜测阈值。
- 早期的基于 UNet 的模型（如 AnimateDiff, ZeroScope）表现较差，PPE 常高于 50%，难以区分物理有效与无效视频。
- 趋势：随着模型参数量、训练数据量和推理帧数的增加，物理理解能力呈现明显的提升趋势。
与人类偏好的一致性：
- LikePhys 的排名与人类对生成视频物理正确性的评分（Kendall's $\tau$ ）达到了 0.44 的相关性，优于现有的 VLM 评估器（如 VideoPhy, Qwen2.5-VL）。
- 证明了 PPE 是衡量物理一致性的可靠代理。
与视觉质量的解耦：
- PPE 与主流视觉质量指标（如美学质量、主体一致性）的相关性极低（ $r \approx -0.05$ ），证明该方法评估的是独立的物理推理维度，而非视觉美感。
领域差异分析：
- 流体动力学（Fluid Mechanics）表现最差，错误率最高且波动最大，表明模型在处理非线性、多尺度动态时存在困难。
- 光学效应（Optical Effects）和刚体力学表现相对较好。
- 时间连续性（Temporal Continuity）是模型最薄弱的环节，表明长程依赖和遮挡处理仍是挑战。

5. 意义与影响 (Significance)

评估范式的转变：LikePhys 提供了一种不依赖生成质量、直接探测模型内部物理分布学习能力的“白盒”式评估方法，解决了现有黑盒评估（依赖 VLM 或人类）的主观性和外观偏差问题。
指导模型开发：研究结果表明，扩大模型规模、增加训练数据以及使用 DiT 架构能有效提升物理理解能力，但流体和复杂动态仍是瓶颈。这为未来构建更可靠的“世界模拟器”（World Simulators）提供了明确的方向。
应用价值：对于机器人学习、自动驾驶等需要物理常识的领域，LikePhys 可作为筛选和监控模型训练进度（Checkpoints）的有效工具，确保模型在发布前具备基本的物理合理性。

总结：LikePhys 通过利用扩散模型自身的概率密度估计能力，成功量化了视频生成模型对物理世界的理解程度。它不仅揭示了当前 SOTA 模型在物理推理上的进步与不足，也为构建真正具备物理常识的通用世界模型奠定了评估基础。

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

1. 核心难题：如何区分“画得像”和“懂物理”？

2. LikePhys 的魔法：用“去噪”来测“直觉”

3. 考试的题库：12 种物理场景

4. 考试成绩单：谁在裸泳？

5. 总结与意义

1. 研究背景与问题 (Problem)

2. 方法论：LikePhys (Methodology)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA