Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale 提出了一种通过“小模型采集、大模型评估与目标模型学习”的异构协同机制,仅需少量种子演示即可构建自进化数据引擎,有效克服数据瓶颈并显著提升具身智能体的性能与扩展性。

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Seed2Scale(从种子到规模)的“自我进化数据引擎”。简单来说,它解决了一个让机器人变聪明的最大难题:没有足够多的高质量数据来训练它们

为了让你更容易理解,我们可以把整个系统想象成一个**“天才学徒 + 严厉导师 + 目标大师”**的三人团队,他们在一个虚拟的“机器人训练场”里工作。

1. 核心痛点:机器人为什么变笨?

以前的机器人训练就像让一个学生死记硬背。

  • 数据太少:人类专家只能演示很少几次(比如 4 次),机器人学不会变通。
  • 数据太脏:如果让机器人自己瞎试,它会试出很多失败的动作。如果把这些失败动作也拿来训练,机器人就会越学越笨,最后彻底“学废了”(这就是论文里说的“模型崩溃”)。

2. Seed2Scale 的解决方案:三人天团

这个系统通过三个角色的完美配合,实现了“自我进化”:

🌱 角色一:SuperTiny(超级小徒弟)—— 不知疲倦的“探索者”

  • 形象:一个身材小巧、反应极快的小机器人(只有 4800 万参数,很小巧)。
  • 任务:它的唯一工作就是疯狂试错
  • 比喻:想象它是一个在迷宫里乱跑的小老鼠。虽然它很笨,但它跑得快、不怕死。你只需要给它看4 次人类怎么走出迷宫(种子数据),它就能利用这种“直觉”,在成千上万个平行世界里同时奔跑,尝试各种奇怪的路径。
  • 作用:它负责大规模收集原始数据,不管成功还是失败,先跑出来再说。

👁️ 角色二:VLV-Agent(大眼导师)—— 火眼金睛的“质检员”

  • 形象:一个拥有超级大脑的“大模型”(基于 Qwen3-VL,参数很大,很聪明)。
  • 任务:它不亲自跑,只负责看和打分
  • 比喻:想象它是那个坐在监控室里的严厉教练。小徒弟跑出来的成千上万条路线,它一眼就能看出:
    • “这条路撞墙了,不及格,扔掉!”
    • “这条路虽然到了终点,但动作很僵硬,勉强及格,存起来。”
    • “这条路动作优雅、完美,满分,重点收藏!”
  • 作用:它充当过滤器。它把那些“有毒”的失败数据剔除,只把真正高质量的数据留下来。这防止了机器人“学坏”。

🏆 角色三:SmolVLA(目标大师)—— 最终成型的“专家”

  • 形象:我们要训练的最终机器人模型。
  • 任务:它只学习被导师筛选过的高质量数据
  • 比喻:这是一个正在备考的学霸。它不看小徒弟乱跑产生的垃圾数据,只吃“大眼导师”精心挑选出来的“营养餐”(高质量轨迹)。
  • 结果:通过这一轮轮的“试错 - 筛选 - 学习”,这个大师的能力会像滚雪球一样越来越强。

3. 整个过程是怎么发生的?(自我进化循环)

  1. 播种:人类只给机器人看4 次怎么倒水、怎么拿杯子(种子数据)。
  2. 疯狂探索:小徒弟(SuperTiny)利用这 4 次经验,在虚拟世界里同时跑了几千次,产生了几千条新路线。
  3. 严格筛选:大眼导师(VLV)像阅卷老师一样,给这几千条路线打分。它把失败的、难看的路线全部删掉,只留下最完美的几十条。
  4. 大师升级:目标大师(SmolVLA)用这些完美的路线重新训练自己,能力瞬间提升。
  5. 循环往复:升级后的大师又指导小徒弟去探索更难的领域,产生更多数据,再筛选,再升级……
  6. 最终成果:经过几轮循环,机器人从只会做简单动作,变成了能完成复杂任务(比如把杯子叠得很高、把空气炸锅里的食物拿出来)的专家。

4. 实验结果有多惊人?

  • 起点极低:只用了4 个人类演示作为起点。
  • 终点极高:经过自我进化,机器人的成功率从最初的 22% 飙升到了 68%
  • 进步幅度:性能提升了 209%
  • 对比优势:相比以前那种简单的“把数据复制粘贴一下”的旧方法,Seed2Scale 生成的动作更流畅、更像真人,而且没有那种让人看了头晕的抖动。

总结

这篇论文的核心思想就是:不要试图一次性教机器人所有东西,而是让它自己“试错”,但必须有一个“聪明的大脑”在旁边把关,只让它学习成功的经验。

这就好比教孩子学骑车:

  • 以前:家长扶着车走,走几步就停,数据太少。
  • 现在:让孩子自己骑(小徒弟),旁边有个超级教练(大模型)拿着摄像机录像。孩子摔倒了,教练说“这段不算”;孩子骑得稳,教练说“这段完美,记下来”。最后,孩子看着这些“完美录像”反复练习,很快就成了赛车手。

Seed2Scale 就是这样一个让机器人低成本、高效率、自我进化的超级引擎,为未来通用的机器人(Generalist Embodied AI)铺平了道路。