Adaptive integration of model-based and model-free strategies in human reinforcement learning of reachable space

该研究利用新型机器人迷宫任务发现,人类在可达空间学习避障时,会随熟悉度增加和距离目标变远而自适应地从基于模型的策略转向基于无模型的策略,且这种对无模型策略的依赖程度显著高于虚拟导航任务,表明跨尺度的空间学习计算架构虽共享但会根据效应器系统的成本与约束进行校准。

原作者: Zhu, T., Syan, R., Vejandla, S., Gallivan, J. P., Wolpert, D. M., Flanagan, J. R.

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:当我们用手在伸手可及的范围内(比如伸手拿桌上的杯子、绕过障碍物)学习新技能时,我们的大脑是如何“思考”和“做决定”的?

为了让你更容易理解,我们可以把大脑里的决策过程想象成两个性格迥异的“导航员”,它们共同驾驶着你的手臂这辆车。

1. 两个“导航员”:规划师 vs. 老司机

  • 导航员 A:规划师(模型基于,Model-Based)
    • 特点:他手里有一张详细的地图。在行动前,他会在脑海里模拟:“如果往左走,会不会撞墙?如果往右走,能不能更快到终点?”
    • 优点:非常灵活,遇到新情况能立刻想出最佳路线。
    • 缺点太费脑子了! 每次行动前都要重新计算,就像开车时每一步都要打开 GPS 重新规划,速度很慢。
  • 导航员 B:老司机(模型无关,Model-Free)
    • 特点:他没有地图,只靠肌肉记忆和经验。他记得:“上次在这个路口往右转,成功避开了障碍物,所以这次还往右转。”
    • 优点反应极快,不需要思考,像条件反射一样。
    • 缺点:死板。如果环境变了(比如路被堵了),他可能还会固执地往右转,直到撞墙。

2. 实验:机器人迷宫大挑战

研究者设计了一个像游戏一样的实验:

  • 任务:参与者坐在机器人手柄前,控制一个虚拟小球穿过迷宫,避开障碍物到达终点。
  • 两种模式
    1. 看得见摸得着(视觉 + 触觉):你能看到迷宫的墙壁和小球。
    2. 只能摸(纯触觉):你看不见迷宫,只能靠手摸到墙壁才知道路在哪(就像在黑暗中摸索)。

3. 核心发现:大脑是个“聪明的混合体”

研究发现,人类并不是只选其中一个导航员,而是动态地切换和混合使用他们:

  • 刚开始学的时候(新手期)
    大脑主要依赖**“规划师”**。因为环境是新的,我们需要像看地图一样,仔细思考每一步怎么走才不会撞墙。这时候动作比较慢,但路线很聪明。
  • 练熟了之后(老手期)
    大脑开始越来越多地启用**“老司机”**。一旦我们熟悉了某条路,或者某个位置经常走,大脑就会说:“别算了,直接按老习惯走!”这时候动作变快了,因为不需要每次都重新规划。

有趣的细节:

  • 越熟悉越“懒”:如果你在一个地方走了很多次(状态熟悉),大脑就更倾向于用“老司机”模式,不再费脑子去规划。
  • 离终点越远越“懒”:如果你离终点还很远,大脑觉得“反正还要走很久,先按老习惯走几步再说”,也会更多依赖经验。
  • 看不见时更依赖“老司机”:在纯触觉模式下(看不见迷宫),因为“规划师”很难在没有地图的情况下工作,大脑会更早、更多地依赖“老司机”的经验。

4. 一个惊人的对比:手 vs. 脚

研究者还做了一个对比实验:

  • 场景 A(手):用手在桌子上推小球(伸手可及的空间)。
  • 场景 B(脚/身体):用 VR 设备在虚拟世界里“走路”穿过同样的迷宫(大尺度导航)。

结果发现
用手的时候,大脑比用脚走路时,更早、更多地依赖“老司机”(经验)

为什么?
这就好比:

  • 走路:每一步都很慢,如果走错路,浪费的时间很多。所以大脑愿意花精力去“规划”,确保每一步都最优。
  • 伸手:手移动得非常快,就算走错一点点,修正的成本也很低。既然“规划”太费脑子,而“试错”成本又低,大脑就干脆**“偷懒”**,直接靠经验(老司机)快速反应。

5. 总结:大脑的“节能智慧”

这篇论文告诉我们,人类在伸手可及的空间里学习时,大脑非常聪明地平衡了“思考”和“习惯”

  1. 先思考,后习惯:遇到新任务先动脑规划,熟练后靠肌肉记忆。
  2. 看情况切换:如果环境看不清,或者离目标很远,就更多靠经验;如果环境清晰,就更多靠规划。
  3. 根据成本调整:因为手移动快、成本低,我们比走路时更倾向于“不假思索”地行动。

一句话总结
我们的大脑就像一位精明的管家,在伸手拿东西时,它不会每次都拿着地图(规划)去算路,而是根据熟练程度和环境,灵活地在“深思熟虑”和“凭直觉行动”之间切换,以此来既保证效率,又节省脑力

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →