Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

本文发现,相较于从头训练的小型策略模型,预训练的大规模视觉 - 语言 - 动作(VLA)模型在持续学习中表现出惊人的抗遗忘能力,仅需简单的经验回放即可在保持新技能学习能力的同时实现零遗忘,且即使性能暂时下降,其保留的潜在知识也能通过微调快速恢复旧技能。

Huihan Liu, Changyeon Kim, Bo Liu, Minghuan Liu, Yuke Zhu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**机器人如何“终身学习”而不“忘本”**的有趣发现。

为了让你轻松理解,我们可以把机器人学习新技能的过程,想象成一个学生在学校里不断修读新课程

🎓 核心故事:两个学生的对比

想象学校里有两类学生:

  1. 普通学生(传统小模型)

    • 他们从零开始学。
    • 当他们开始学“微积分”时,因为大脑容量有限,他们往往把之前学的“代数”给忘了。
    • 为了不忘掉旧知识,老师(研究人员)不得不给他们发厚厚的复习笔记(经验回放缓冲区),让他们在学新课时反复翻看。笔记越厚,他们忘得越少,但这很麻烦且效率低。
  2. 天才学霸(预训练的大模型 VLA)

    • 这些学生在入学前,已经通过互联网自学了海量的知识(预训练),脑子里已经有了一个庞大的“世界观”和“常识库”。
    • 这篇论文发现了一个惊人的现象:这些“天才学霸”在学新课时,几乎不会忘掉旧知识!
    • 哪怕老师只给他们极少量的复习笔记(比如只有 2% 的数据),他们依然能完美地记住以前的技能,甚至学新东西还能反过来让旧技能变得更好(这叫“正向迁移”)。

🔍 论文的三个关键发现

1. 简单的“复习”就够用了

以前大家认为,要让机器人不忘记旧技能,必须用很复杂的算法,或者存海量的旧数据。

  • 比喻:就像以前觉得要防止学生忘词,得让他每天背整本字典。
  • 发现:对于“天才学霸”(预训练的 VLA 模型),只需要偶尔翻翻几页笔记(简单的经验回放),他们就能保持记忆。甚至有时候,学新东西反而让旧东西记得更牢了。

2. “底子好”是关键(预训练的作用)

为什么学霸这么强?因为他们入学前已经“博览群书”了。

  • 比喻:普通学生学“做蛋糕”和“做面包”,觉得这是两个完全不同的技能,学做面包时容易把做蛋糕的步骤搞混。但学霸因为已经懂了很多烘焙原理(预训练知识),他知道做蛋糕和做面包有很多共通之处。
  • 结论:这种预先学到的通用知识,让模型在面对新任务时,不需要把旧知识“覆盖”掉,而是能灵活地调用和重组。即使只给很少的复习数据,他们也能抵抗遗忘。

3. “假装”忘了,其实没忘(知识保留)

这是最反直觉的发现。有时候,学霸在学完新课后,做旧题的正确率看起来下降了(好像忘了)。

  • 比喻:就像一个精通多国语言的人,突然让他用中文说“苹果”,他可能卡了一下,看起来好像忘了中文。但只要你给他几秒钟的提示(微调),他马上就能流利地说出来,而且速度比第一次学还要快。
  • 发现:论文证明,这些知识其实并没有消失,只是被“藏”在了大脑深处。只要稍微“唤醒”一下(微调),技能就能瞬间恢复。而普通学生(小模型)如果忘了,就是真的忘了,得重新从头学起。

💡 这对未来意味着什么?

这篇论文告诉我们,未来的机器人不需要变得像“超级计算机”那样复杂,也不需要存海量的旧数据来防止遗忘。

  • 以前的思路:为了不让机器人忘事,我们要设计复杂的“防遗忘算法”,或者给它巨大的硬盘存旧数据。
  • 现在的思路:只要给机器人一个强大的“大脑”(大规模预训练),它天生就具备极强的记忆力和适应性。我们只需要给它一点点“复习材料”,它就能像人类一样,一边学新技能,一边完美保留旧技能。

一句话总结
“底子好”的机器人,学新东西时根本不用怕忘旧东西,简单的复习就能让它们成为真正的“终身学习者”。