GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

本文提出了名为 GigaBrain-0.5M* 的视觉 - 语言 - 动作(VLA)模型,该模型基于在海量机器人数据上预训练的 GigaBrain-0.5,并通过世界模型驱动的强化学习框架 RAMP 显著提升了长程任务规划与跨任务适应能力,在折叠衣物、装箱及制作意式浓缩咖啡等复杂任务中取得了超越基线约 30% 的性能提升。

GigaBrain Team, Boyuan Wang, Bohan Li, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GigaBrain-0.5M* 的机器人“大脑”。为了让你轻松理解,我们可以把机器人做任务的过程想象成一个新手厨师学做菜

1. 以前的机器人:只会“看一步,走一步”的学徒

传统的机器人(VLA 模型)就像是一个死记硬背的学徒

  • 怎么工作? 它看着眼前的食材(比如鸡蛋),厨师说“打蛋”,它就打蛋。看着下一个食材,再听指令。
  • 缺点是什么?没有“预知未来”的能力。它不知道打蛋时用力过猛会把碗打碎,也不知道如果先倒牛奶再放面粉会结块。它只能根据当下看到的画面做反应。
  • 结果: 遇到稍微复杂点、步骤多一点的菜(比如做一顿完整的早餐),它很容易在半路“翻车”,因为缺乏对未来的规划。

2. GigaBrain-0.5M* 的突破:给机器人装上了“水晶球”

这篇论文的核心创新,就是给这个机器人装了一个**“世界模型”(World Model)**。

  • 什么是世界模型? 想象一下,这个机器人脑子里有一个**“水晶球”或者“时间机器”**。
  • 它是怎么用的? 在机器人动手之前,这个“水晶球”会先帮它在脑海里模拟:“如果我这样打蛋,下一秒会发生什么?再下一秒呢?”
    • 它会预测未来的画面(比如:蛋液会不会溅出来?)。
    • 它会评估这个动作的“价值”(比如:这个动作是离成功更近了,还是更远了?)。
  • RAMP 框架: 论文里提到的 RAMP 方法,就是教机器人如何利用这个“水晶球”来学习。它不再只是盲目模仿人类,而是通过“预测未来 -> 评估好坏 -> 修正行动”的循环,让自己越做越聪明。

3. 学习过程:从“看书”到“实战演练”

这个机器人的成长分为四个阶段,就像一个人学艺的过程:

  1. 看大片(预训练): 机器人先看了10,000 多个小时的机器人操作视频和网上的视频。这就像它先读了无数本食谱,看了无数遍别人做菜,脑子里有了大概的概念。
  2. 练“预知”(世界模型训练): 它专门练习“猜未来”。给它看现在的画面,让它猜下一秒会发生什么,猜对了就奖励,猜错了就惩罚。这让它的“水晶球”越来越准。
  3. 真人带练(人机协作): 机器人开始真机操作。如果它做错了(比如把咖啡洒了),人类教练会立刻介入纠正。
    • 关键点: 以前机器人只学“成功的步骤”,现在它通过“水晶球”分析为什么会失败,以及如何修正。
  4. 自我进化(循环训练): 机器人把“真人带练”中积累的经验(包括成功的和失败的修正过程)再喂给“水晶球”和“大脑”,让它下次做得更好。这就形成了一个自我变强的闭环

4. 成果:从“笨手笨脚”到“大师级”

实验结果显示,这个新大脑(GigaBrain-0.5M*)非常厉害:

  • 复杂任务: 以前机器人做不到的叠衣服、打包箱子、甚至做浓缩咖啡,现在都能稳稳完成。
  • 长程规划: 它能连续做很多步动作而不迷路。比如做咖啡,它能记住“先磨豆、再压粉、再萃取”,中间不会忘记步骤。
  • 数据对比: 相比之前的版本,它在这些高难度任务上的成功率提高了约 30%

总结

简单来说,这篇论文就是给机器人装上了**“想象力”“预判力”
以前的机器人是
“盲人摸象”,摸到哪算哪;现在的 GigaBrain-0.5M*“运筹帷幄”**,它在动手前先在脑子里把未来推演了一遍,知道哪条路能走到终点,哪条路是死胡同。

这就好比一个老练的棋手,不仅看眼前的棋子,还能算出后面十几步的棋局,因此下棋(做任务)时更加从容、精准,不容易犯错。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →