The macaque IT cortex but not current artificial vision networks encode object position in perceptually aligned coordinates

该研究结合猕猴脑内记录与人类心理物理学实验,发现猕猴颞下皮层(IT)能像人类一样在感知坐标中编码物体位置并受运动后效影响,而当前的人工视觉网络虽能准确编码位置却无法复现这种依赖历史感知的空间编码特性。

Elizaveta Yakubovskaya, Hamidreza Ramezanpour, Matteo Dunnhofer, Kohitij Kar

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大脑如何“看”世界以及人工智能(AI)在模仿人类视觉时还缺了什么的有趣研究。

为了让你轻松理解,我们可以把这篇论文的核心故事想象成一场**“视觉错觉大冒险”**。

1. 核心问题:大脑是“照相机”还是“魔术师”?

想象一下,你的眼睛是一台照相机。当照相机拍下一张照片时,照片里的物体位置是固定的(比如苹果在左边,香蕉在右边)。

  • 传统观点认为:大脑里负责“认物体”的区域(叫下颞叶皮层,IT,你可以把它想象成大脑里的“物体识别专家”),只负责告诉你“这是什么”(比如“这是苹果”),而不管“它在哪”。至于“它在哪”,那是另一条负责“空间定位”的神经通路(背侧通路)的工作。
  • 新发现:这项研究想问:这位“物体识别专家”真的只认东西,不关心位置吗?而且,它告诉我们的位置,是照相机拍到的真实位置,还是我们感觉到的位置?

2. 实验道具:神奇的“运动后效”(Motion Aftereffect)

为了测试这一点,科学家利用了一个经典的视觉错觉,叫**“运动后效”**。

  • 生活类比:这就好比你盯着一个向右快速旋转的摩天轮看了 30 秒,然后突然看旁边静止的一棵树。你会感觉那棵树在向左飘。虽然树明明没动,但你的大脑“晕”了,产生了错觉。
  • 实验设置
    1. 让人和猴子盯着向左或向右移动的条纹看很久(就像盯着旋转的摩天轮)。
    2. 然后,给他们看一张静止不动的物体图片(比如一只熊)。
    3. 关键点:图片里的熊在屏幕上的像素位置(物理位置)是完全没变的。但是,因为刚才看了移动的条纹,人的感觉会认为熊的位置发生了偏移(比如向右看久了,感觉熊往左移了)。

3. 研究发现:大脑的“物体专家”也被骗了!

科学家记录了猴子大脑中“物体识别专家”(IT 区)的神经活动,并让人类做同样的测试。

  • 人类的表现:正如预期,人类报告说,静止的熊看起来确实往相反方向“漂移”了。
  • 猴子的表现(惊人发现):科学家解码猴子大脑 IT 区的信号,发现猴子大脑里“熊的位置”也发生了同样的漂移!
    • 即使输入给大脑的图片像素位置没变,但大脑里的神经信号却“主动”把位置改写了,改写得和人类的错觉一模一样。
    • 比喻:这说明 IT 区不仅仅是个死板的“照相机底片”,它更像是一个**“有感觉的魔术师”。它会根据之前的经历(刚才看了什么运动),主动调整它呈现给大脑其他部分的信息,让“位置”符合我们的主观感受**,而不是冷冰冰的物理坐标。

4. 人工智能(AI)的尴尬时刻

接下来,科学家把同样的测试用在了现在的**人工智能(AI)**身上,看看那些最先进的计算机视觉模型(像 AlphaGo 那种级别的 AI)能不能模仿这种“魔术”。

  • AI 的表现:无论怎么让 AI 看移动的条纹,再让它看静止的图片,AI 报告的位置永远都是图片原本的位置
    • 比喻:AI 就像一台极其精准的照相机。它只会说:“图片里熊在坐标 (100, 200)。”它完全无法理解“晕眩”或“错觉”。它不知道刚才看了什么,所以它不会“晕”。
  • 尝试修补:科学家试图给 AI 加上一些“大脑的机制”(比如模拟神经元的疲劳/适应),结果发现,仅仅让神经元“累一点”是不够的。
  • 结论:目前的 AI 模型虽然能认出物体,也能知道物体在哪,但它们缺乏一种“根据历史经验动态调整感知”的机制。它们太“理性”了,没有人类那种生动的、会受错觉影响的感知力。

5. 总结与启示

这篇论文告诉我们三件大事:

  1. 大脑的“位置感”是主观的:我们大脑里负责认东西的区域,不仅知道“这是什么”,还知道“我觉得它在哪”。这种位置感是为了配合我们的感知体验而存在的,而不是为了记录物理事实。
  2. AI 还没学会“晕”:现在的 AI 在视觉任务上很强,但它们还是太“死板”了。它们没有学会像人类大脑那样,根据过去的视觉经验(比如刚才看了什么运动)来动态调整现在的感知。
  3. 未来的方向:要造出更像人的 AI,不能只教它认物体,还得教它**“如何根据经验去感知世界”**。我们需要给 AI 装上那种能产生“错觉”、能“晕”的机制,这样它们才能真正理解人类眼中的世界。

一句话总结
人类的大脑是个**“会晕的魔术师”,它会根据刚才看到的运动,主动修改物体的位置,让我们觉得世界是连贯的;而现在的 AI 是个“死板的照相机”**,它虽然看得清,但永远学不会这种“晕乎乎”的错觉,因此还无法完全模拟人类的视觉体验。