Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Phys2Real 提出了一种结合视觉语言模型物理参数先验与基于不确定性感知的在线交互适应的“实 - 仿 - 实”强化学习框架,通过融合 3D 高斯溅射重建、VLM 推断及在线估计,显著提升了机器人在复杂物理动力学任务中的 sim-to-real 迁移成功率与效率。

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Phys2Real 的机器人学习系统。简单来说,它解决了一个大难题:怎么让机器人在虚拟游戏里练好的本事,能完美地用到现实世界中?

想象一下,你教一个机器人推箱子。在电脑模拟里,箱子是完美的,摩擦力也是固定的。但到了现实世界,箱子可能有点歪,里面装的货物位置也不对(导致重心变了),推起来感觉完全不一样。如果机器人死板地照搬模拟里的经验,很容易推偏或者推不动。

Phys2Real 就像给机器人装上了一套"超级直觉 + 实时纠错"的组合拳。我们可以用三个生动的比喻来理解它的核心步骤:

1. 第一步:打造“数字孪生” (Real-to-Sim)

比喻:给物体拍一张“超清 3D 身份证”

在机器人开始学习前,我们需要先把它要推的物体(比如一个 T 型积木或一把锤子)放进电脑里。

  • 传统做法:可能只是大概画个形状,或者手动输入参数,很不准。
  • Phys2Real 的做法:它用一种叫"3D 高斯泼溅”的新技术,就像给物体拍了一组超高清的 360 度照片,然后瞬间在电脑里重建出一个滴水不漏、形状分毫不差的 3D 模型
  • 作用:这就像给机器人造了一个和现实世界一模一样的“虚拟训练场”,确保它在里面练出来的肌肉记忆,是建立在真实形状基础上的。

2. 第二步:请“博学家”和“老练工”联手 (The Core Idea)

这是论文最精彩的部分。机器人要推物体,必须知道物体的重心在哪里(比如锤子头重脚轻,重心就在上面)。如果不知道,推起来就会乱飞。Phys2Real 用了两个“顾问”来帮机器人判断重心:

  • 顾问 A:博学家 (VLM - 视觉语言模型)

    • 角色:就像一位见多识广的教授
    • 能力:机器人只要拍一张物体的照片,这位“教授”就能根据经验猜出:“嘿,看这个形状和材质,重心大概在中间偏上一点。”
    • 缺点:教授虽然懂理论,但他没亲手摸过这个特定的物体,所以他的猜测可能有点偏差,而且他不太确定自己猜得有多准
  • 顾问 B:老练工 (RL 策略 + 在线适应)

    • 角色:就像一位经验丰富的老工人
    • 能力:机器人开始推物体了,老工人通过“手感”(接触历史、推了多久、物体怎么动)来实时计算:“刚才推了一下,感觉不对劲,重心其实更靠下!”
    • 缺点:刚开始推的时候,老工人还没摸透,信息太少,容易猜错,或者在没接触物体的时候完全瞎猜。

3. 第三步:聪明的“融合大师” (Uncertainty-Aware Fusion)

比喻:像调音师一样,根据“信心指数”来混合声音

机器人怎么决定听谁的?Phys2Real 发明了一个智能融合算法

  • 当机器人刚接触物体,还没摸透时:老工人(顾问 B)很迷茫,信心很低。这时候,系统会多听一点博学家(顾问 A)的,因为教授至少有个大致的方向。
  • 当机器人推了一会儿,手感来了:老工人(顾问 B)的数据变多了,信心变高了。这时候,系统会多听老工人的,因为他的判断是基于真实物理反馈的,更准。
  • 关键点:系统会实时计算两位顾问的“不确定度”(Uncertainty)。谁越不确定,权重就越低;谁越确定,权重就越高。

这就好比你在开车:

  • 刚上路时(没经验),你听导航(VLM)的指引。
  • 开了一会儿,发现导航说前面有路,但你亲眼看到前面是堵死的(交互反馈),你就立刻相信自己的眼睛,忽略导航。
  • Phys2Real 就是那个能瞬间在“听导航”和“看路况”之间找到最佳平衡点的老司机。

实验结果:真的管用吗?

研究人员在两个任务上测试了这套系统:

  1. 推 T 型积木:故意把重物放在积木的顶部(很难推,容易倒)或底部。
    • 结果:传统的机器人(只靠随机训练)成功率只有 23% 到 79%。而 Phys2Real 在底部配置时100% 成功,在极难的顶部配置时也达到了 57%(远超其他方法)。
  2. 推锤子:这是一个形状不规则、重心很偏的物体。
    • 结果:Phys2Real 不仅成功率 100%,而且完成任务的速度比传统方法快了 15%

总结

这篇论文的核心思想就是:不要只靠“死记硬背”(模拟训练),也不要只靠“瞎猜”(纯视觉),更不要只靠“试错”(纯交互)。

Phys2Real 把视觉上的先验知识(博学家)和现实中的交互经验(老练工)完美结合,并且知道什么时候该信谁。这让机器人变得既聪明又灵活,能像人类一样,看一眼物体大概知道怎么推,推一下再根据手感微调,最终完美完成任务。

这标志着机器人从“只会按程序办事”向“能理解物理世界并灵活适应”迈出了一大步。