PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

PhaForce 提出了一种基于接触相位的视觉 - 力策略学习方法,通过结合慢速扩散规划器与快速残差校正器,有效协调了低频视觉语义规划与高频力反馈微调,从而在接触丰富的机器人操作任务中显著提升了成功率、接触质量及泛化能力。

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在教一个机器人做一件非常精细的活儿,比如把插头插进插座,或者用湿布擦桌子

如果只靠“眼睛”看,机器人很容易犯傻:它可能觉得插头已经插进去了,其实只是卡在了边缘;或者它擦桌子时用力过猛把桌子刮花了,或者太轻了根本没擦干净。

这篇论文提出的 PhaForce,就是给机器人装上了一套"慢思考 + 快反应"的超级大脑,让它既能看懂大局,又能瞬间感知触觉,像老练的工匠一样灵活。

我们可以用三个生动的比喻来理解它的核心秘密:

1. 核心痛点:为什么以前的机器人很“笨”?

以前的机器人就像是一个只会看地图的司机

  • 眼睛(视觉):它能看到路(图像),知道大概要往哪开。
  • 手(力觉):它手里拿着方向盘,但反应很慢。
  • 问题:当车轮突然压到一块石头(接触力突变)时,它还在根据几秒前的地图做决定,等它反应过来,车已经撞上了。而且,它不知道什么时候该用力推,什么时候该轻轻滑,总是“一刀切”地乱用力。

2. PhaForce 的三大法宝

PhaForce 把任务拆解成了三个角色,分工明确:

第一招:聪明的“导航员” (CAP - 接触感知阶段预测器)

  • 角色:就像你开车时的直觉
  • 作用:它不看具体的路,而是看“现在的状态”。
    • 它时刻在问:“我们要插进去了吗?”(接触概率)
    • 它时刻在问:“我们现在是在‘找孔’阶段,还是‘硬插’阶段?”(阶段信念)
  • 比喻:就像你插钥匙时,手会感觉到“咔哒”一声,大脑立刻判断:“哦,现在不是硬转的时候了,得轻轻往下一压”。这个导航员就是负责告诉机器人:“现在该用哪一套策略了!”

第二招:稳重的“大画家” (Slow Planner - 慢速扩散规划器)

  • 角色:负责画大轮廓的艺术家。
  • 作用:它动作慢(比如每秒 6 次),负责规划接下来几秒钟的大动作(比如“把插头拿起来,慢慢靠近插座”)。
  • 绝招(正交残差注入):这是它的独门秘籍。
    • 以前的机器人把“眼睛看到的”和“手感觉到的”混在一起,结果把“眼睛看到的”重要信息给弄丢了(比如把插头插歪了)。
    • PhaForce 说:“眼睛看的是主图,手感觉到的只是微调建议。”
    • 它把触觉信息像“透明图层”一样叠加在视觉图上,只修改那些不影响大局的细节,既利用了触觉,又没丢掉视觉的准确性

第三招:敏捷的“急救员” (Fast Corrector - 快速修正器)

  • 角色:负责瞬间微调的杂技演员。
  • 作用:它动作极快(每秒 24 次甚至更快),在“大画家”画完一笔后,立刻进行微调。
  • 绝招(阶段路由)
    • 如果现在是“找孔”阶段,急救员只负责左右上下微调(X, Y 轴)。
    • 如果现在是“垂直插入”阶段,急救员就只负责上下用力(Z 轴)。
    • 比喻:就像你擦桌子,如果桌子歪了,你只调整左右;如果桌子脏了,你只调整下压力。它绝不会在“找孔”的时候去乱扭插头,也不会插到底的时候还在左右乱晃。它根据“导航员”的指令,只在正确的地方用力

3. 实际效果:它有多强?

论文在真实的机器人上做了很多测试,比如插充电器、插 USB、开抽屉、擦桌子。

  • 插插头:以前的机器人插进去一半卡住就放弃了,或者插歪了。PhaForce 能感觉到“卡住了”,立刻退出来换个角度再试(这就是“阶段切换”),成功率从 20% 飙升到 80% 以上
  • 擦桌子
    • 如果桌子突然变高了(环境变化),以前的机器人要么用力过猛把桌子压坏,要么够不着。
    • PhaForce 的“急救员”能瞬间感觉到“哎,桌子高了,我得往下压一点”,从而完美适应,成功率极高。
  • 整体成绩:在多个任务中,它的成功率比以前的最强方法提高了 40%

总结

PhaForce 就像是一个经验丰富的老工匠

  1. 他脑子里有张地图(慢速规划),知道大概要干什么。
  2. 他时刻感知手里的力度和状态(阶段预测),知道现在是“粗活”还是“细活”。
  3. 他有一双极快的手(快速修正),能在毫秒级时间内根据手感调整动作,而且知道什么时候该用力,什么时候该轻放

它不再是一个只会死板执行指令的机器,而是一个懂得看眼色、知进退、会应变的智能助手。这就是为什么它能轻松搞定那些充满摩擦、碰撞和不确定性的复杂任务。