GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

GeoLoco 提出了一种纯视觉驱动的机器人运动框架,通过利用冻结的视觉基础模型中的几何先验,将单目 RGB 图像转化为高维 3D 潜在表示,并结合 proprioceptive-query 交叉注意力机制与双头辅助学习策略,实现了在 Unitree G1 人形机器人上针对复杂地形的鲁棒零样本 Sim-to-Real 迁移。

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 GeoLoco 的新系统,它让人形机器人(比如宇树科技的 G1)仅凭一只普通的摄像头(就像我们人类的眼睛),就能在楼梯、斜坡和崎岖不平的地面上稳健行走,而不再需要昂贵的激光雷达或深度传感器。

为了让你更容易理解,我们可以把这项技术想象成教一个盲人钢琴家如何蒙眼弹奏,或者给机器人装上了一个**“超级大脑”**。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 以前的困境:机器人是“近视眼”还是“瞎子”?

  • 以前的做法(依赖深度传感器): 就像机器人戴着一副特制的“夜视仪”或“激光眼镜”(LiDAR/深度相机)。这副眼镜能直接告诉机器人:“前面 1 米处有个台阶,高度是 20 厘米。”
    • 缺点: 这副眼镜很贵,而且它只告诉机器人“距离”,却看不到台阶的颜色、材质,或者台阶上是不是画着画。这就好比机器人虽然知道路在哪,但完全不懂周围的世界,无法和更高级的“大脑”(比如能听懂人话、能理解场景的 AI)配合。
  • 另一种尝试(只用普通摄像头): 就像机器人只戴普通眼镜。但普通摄像头拍到的只是平面的图片(2D),就像看一张照片。照片里没有“深度”信息,机器人很难判断那个台阶到底离自己多远,容易摔跟头。而且,让机器人直接对着照片学走路,就像让一个婴儿直接看世界地图学走路,效率极低,而且一旦从模拟训练场(电脑里)走到真实世界,就会因为光线、纹理不同而彻底“崩溃”。

2. GeoLoco 的绝招:给机器人装上“透视眼”

GeoLoco 的核心思想是:别把摄像头拍到的照片只当成“画”,要把它当成“三维世界的投影”。

  • 借用“超级大脑”(视觉基础模型 VFM):
    作者没有让机器人从零开始学怎么看图,而是借用了目前最强大的 AI 模型(比如 Depth-Anything V2)。这个模型就像是一个看过无数世界、拥有“透视眼”的超级老师
    • 比喻: 以前机器人看照片,只能看到“这是一块红色的砖”。现在的 GeoLoco 让机器人问这个“超级老师”:“老师,这块红色的砖在三维空间里是什么形状?离我多远?”
    • 这个“老师”是冻结的(不需要重新训练),它直接把 2D 的照片瞬间转化成了包含深度和几何结构的3D 隐空间特征。这就好比机器人虽然只有一只眼睛,但通过“超级老师”的指点,脑子里瞬间构建出了立体的地形图。

3. 核心机制:身体状态决定“看哪里”

机器人不能只是被动地接收信息,它必须主动去关注对自己有用的信息。

  • 交叉注意力机制(Cross-Attention):
    想象机器人正在上楼梯。它的脚(本体感知)知道现在正抬着腿,身体有点前倾。
    • GeoLoco 设计了一个机制,让机器人的身体状态去“提问”视觉信息。
    • 比喻: 就像你在黑暗中走路,你的脚感觉到要抬高了,你的眼睛就会自动聚焦在前方台阶的边缘,而不是盯着台阶上的花纹看。
    • 这个机制让机器人能动态地忽略无关的背景,只关注“台阶边缘”、“斜坡角度”这些对走路至关重要的几何特征。

4. 防止“死记硬背”:双重辅助训练

这是防止机器人“作弊”的关键。如果只教机器人走路,它可能会死记硬背训练场里的地砖花纹(比如“看到红色地毯就抬脚”),一旦到了真实世界换了地板,它就不会走了。

  • 双重辅助学习(Dual-head Auxiliary Learning):
    在训练时,GeoLoco 给机器人加了两个“小测验”:
    1. 速度预测题: “根据你刚才看到的图,告诉我你现在跑得多快?”
    2. 地形重建题: “把你刚才看到的台阶画出来(重建地形图)。”
    • 作用: 如果机器人只是死记硬背花纹,它肯定答不对这两个关于“物理几何”的问题。只有真正理解了地形的 3D 结构,它才能答对。
    • 比喻: 这就像教学生做题,不仅让他背答案,还让他解释解题思路。这样考试(真实世界)时,无论题目怎么变,他都能做对。

5. 成果:真正的“零样本”迁移

  • 模拟到现实(Sim-to-Real):
    这个机器人完全是在电脑模拟环境里练出来的,没有在真实世界里做过任何微调(Zero-shot)。
  • 实战表现:
    当把它放到真实的宇树 G1 人形机器人上时,它成功做到了:
    • 走上陡峭的楼梯。
    • 跨过宽宽的缝隙。
    • 在光线很暗的地方也能走(因为它依赖的是几何结构,而不是鲜艳的颜色)。
    • 在斜坡上保持平衡。

总结

GeoLoco 就像给机器人装上了一套“超级视觉系统”:

  1. 不用昂贵的激光雷达,只用普通的摄像头。
  2. 借用强大的 AI 模型,把平面的照片瞬间“翻译”成立体的 3D 地图。
  3. 让身体指挥眼睛,动态关注最关键的路况。
  4. 通过“物理测验”,确保机器人真正理解了地形,而不是死记硬背。

这项技术不仅让机器人走得更稳、更聪明,更重要的是,它打通了低层运动控制(怎么走路)和高层语义理解(这是什么地方、要去哪)之间的壁垒,为未来机器人能像人一样理解世界、执行复杂任务(比如“去厨房拿个苹果”)铺平了道路。