Error-driven representation learning in the mesolimbic system

通过分析纹状体投射神经元与多巴胺神经元的同步记录,本研究证实中脑边缘系统采用误差驱动表征学习来更新状态特征,揭示了生物系统与人工系统在学习原则上的趋同。

原作者: Cai, G., Scheller, M. F., Kelsch, W., Gershman, S.

发布于 2026-05-19
📖 1 分钟阅读☕ 轻松阅读

原作者: Cai, G., Scheller, M. F., Kelsch, W., Gershman, S.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象你的大脑就像一位试图学习最佳获胜策略的视频游戏玩家。长期以来,科学家们认为大脑的工作原理类似于一个使用固定控制器的玩家。

旧观念的运作方式如下:

  • 控制器(表征): 你的大脑拥有一组代表周围世界的按钮(例如“食物的气味”或“门的声音”)。科学家们曾认为这些按钮是硬连线的,永远不会改变。
  • 记分牌(预测): 大脑会尝试预测按下某个按钮能获得多少“奖励”(例如食物或赞扬)。
  • 教练(多巴胺): 当你得到意外之喜(比预期更好的奖励)或意外之失(比预期更差的奖励)时,一种名为多巴胺的化学信号会像教练一样大喊:“干得好!”或“再试一次!”
  • 旧理论: 教练只教导玩家如何调整分数。如果你按下了“食物”按钮并得到了一块饼干,教练仅仅微调了“食物=饼干”这一预测。按钮本身则保持原样,丝毫未变。

新发现
这篇论文表明,大脑实际上要聪明得多。它提出,教练(多巴胺)不仅仅微调分数,它实际上重新连接了控制器本身

可以这样理解:如果你在玩一款游戏,却因不理解规则而屡战屡败,一位聪明的教练不会只是让你更好地猜测分数。教练会说:“嘿,你关注错了东西!让我们改变你按钮的含义。”

  • 实验: 研究人员观察了大脑两个部分的协同工作:

    1. 腹侧被盖区(VTA): “教练”(多巴胺神经元),负责发出意外信号。
    2. 嗅结节: “控制器”(纹状体神经元),负责表征世界中正在发生的事情(例如气味)。
  • 发现: 他们逐次试验地观察了这些神经元。他们发现,当“教练”发出信号时,“控制器”不仅仅更新了它的猜测,它实际上改变了它看待世界的方式。大脑表征环境的方式发生了转变,以便在未来做出更好的预测。

宏观图景
这篇论文表明,大脑使用了一种称为**“误差驱动表征学习”的技术。大脑学习的不仅仅是期待什么*,而是学习*如何观察世界,从而能更好地进行预期。

这是一项重大突破,因为它表明生物大脑(我们)和人工智能(机器)正在使用同一种强大的技巧:当你犯错时,不要仅仅修正答案,而要修正你看待问题的方式。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →