HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

该论文提出了 HarvestFlex 系统,首次通过视觉 - 语言 - 动作(VLA)策略迁移,利用仅 3.71 小时的 VR 遥操作数据和多视角 RGB 感知,在无需深度云和显式几何校准的情况下,成功实现了温室草莓采摘任务中 74.0% 的成功率。

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣的故事:教机器人像人类一样,在复杂的温室里熟练地采摘草莓。

想象一下,草莓就像一个个娇嫩的“红脸蛋”,它们藏在茂密的绿叶和树枝后面,有的还反光,有的被挡住了一半。传统的机器人采摘就像是一个“死板”的工程师,需要预先画好地图、精确测量距离,一旦环境稍微有点变化(比如叶子动了、光线变了),它就傻眼了,甚至可能把草莓捏坏。

而这篇论文提出的 HarvestFlex 系统,则像是给机器人装上了一个**“超级大脑”**,让它能像人一样“看、想、做”一气呵成。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心挑战:在“迷宫”里摘“易碎品”

草莓采摘是个大难题:

  • 环境乱: 叶子挡着,树枝交错,光线忽明忽暗,草莓表面还会反光(像镜子一样)。
  • 动作难: 草莓太软了,稍微用力过猛就烂了;而且摘的时候不能硬拽,要像“轻轻扭一下”或者“吸住然后断开”那样温柔。
  • 时间长: 从发现草莓、避开叶子、靠近、吸住、摘断、放到盘子里,这一连串动作是一个漫长的过程,中间任何一步出错,任务就失败了。

2. 解决方案:给机器人装上“三双眼睛”和“直觉”

研究人员没有让机器人去计算复杂的 3D 坐标(就像不让它拿尺子去量),而是给它看了三个视角的普通彩色照片(RGB):

  • 左眼和右眼(固定摄像头): 像人站在远处看全景,负责找“哪颗草莓熟了”、“大概在哪里”。
  • 手腕上的眼睛(机械臂自带摄像头): 像人凑近看细节,负责最后那一步“怎么抓、怎么摘”,确保不碰到叶子,也不捏坏草莓。

关键点: 他们故意不用深度传感器(不用测距仪),只用普通的彩色照片。这就像教一个盲人摸象,但这里教的是教机器人“看图说话”,直接根据画面决定手怎么动。

3. 训练过程:VR 里的“真人教学”

机器人不会凭空变聪明,需要老师教。

  • VR 遥控教学: 研究人员戴着 VR 眼镜,像玩游戏一样,用手柄控制机械臂在真实的温室里摘草莓。他们录下了 3.7 小时 的“教学视频”(227 次采摘过程)。
  • 模仿学习: 他们把这段视频喂给三个不同的“超级大脑”模型(叫 π0\pi_0, π0.5\pi_0.5, WALL-OSS),让机器人学习:“看到这种情况,手应该往哪动,吸力应该开多大”。
  • 结果: 机器人只看了不到 4 小时的真人演示,就学会了在真实温室里干活!

4. 两种“开车模式”:同步 vs. 异步

这是论文里一个很巧妙的发现。机器人思考(看画面、做决定)和动手(控制机械臂)之间有两种配合方式:

  • 同步模式(像老式马车): 眼睛看到 -> 大脑思考 -> 手再动。如果大脑思考慢了,手就得停下来等。这会导致动作卡顿,容易在摘草莓的关键时刻“手抖”或错过时机。
  • 异步模式(像现代赛车): 大脑在后台不停地思考,把一连串指令提前写好放进“队列”里。手只管按节奏执行队列里的指令,不管大脑是不是正在算下一题。
  • 结论: 异步模式效果更好!就像赛车手提前规划好路线,手下的动作更流畅,摘草莓的成功率更高,速度也更快。

5. 最终成绩:虽然不完美,但很有希望

在 50 次真实的采摘测试中:

  • 成功率: 最好的模型(π0.5\pi_0.5)成功摘到了 74% 的草莓。
  • 速度: 平均每次采摘(从开始到放好)大约 32.6 秒
  • 损伤率: 只有 4.1% 的草莓被弄坏了(这已经非常低了,因为草莓太娇嫩)。

对比传统方法:

  • 传统机器人: 像是一个精密的钟表匠,速度快(8 秒一次),但一旦环境复杂(叶子挡住)就彻底瘫痪,需要工程师重新调试代码。
  • HarvestFlex (VLA 机器人): 像是一个有经验的农妇。虽然它动作慢一点(32 秒一次),但它更灵活。遇到叶子挡路,它会自己想办法绕过去;遇到光线暗,它也能适应。而且,它只需要很少的“教学时间”就能上岗,不需要庞大的工程师团队去重新编程。

6. 总结与比喻

这篇论文证明了:把“视觉 - 语言 - 动作”的大模型(VLA)直接用在真实的农业采摘上,是行得通的。

  • 以前的机器人像是**“只会走直线的机器人”**,必须把路修得笔直才能走。
  • 现在的 HarvestFlex像是**“刚学会走路但很聪明的孩子”**,虽然走得慢一点,偶尔还会摔跤(失败),但它能看懂复杂的环境,能自己想办法绕过障碍,而且只需要看大人做几次,它就能学会。

未来的意义:
这意味着未来我们可能不需要为每个温室专门定制昂贵的机器人系统。只要给机器人看几段人类采摘的视频,它就能学会在千变万化的温室里工作,大大降低农业机器人的门槛和成本。

一句话总结: 这是一个让机器人从“死板执行命令”进化到“像人一样灵活采摘”的重要一步,虽然还没达到完美,但已经展现出了巨大的潜力。