Face and body representations converge along the visual hierarchy in models and cortex

该研究通过结合深度神经网络模型与 fMRI 编码分析,揭示了人脸与身体表征在视觉皮层及模型中并非完全分离,而是通过混合选择性单元沿视觉层级从后向前逐步整合,从而支持多任务的人体感知。

原作者: van Dyck, L. E., Dobs, K.

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

原作者: van Dyck, L. E., Dobs, K.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

这篇论文探讨了一个非常有趣的问题:我们的大脑在识别“人”的时候,是把“脸”和“身体”当作两个完全分开的事情来处理,还是把它们融合在一起处理?

为了回答这个问题,研究人员不仅观察了人类的大脑(通过 fMRI 扫描),还训练了人工智能(深度神经网络,DNN)来模拟视觉处理过程。

以下是用通俗易懂的语言和生动的比喻对这篇论文核心发现的解读:

1. 核心谜题:是“分家”还是“合体”?

想象一下,你走进一个房间,看到一个人。你的大脑需要迅速识别出:

  • 这是谁?(看脸)
  • 他在做什么?(看身体动作)
  • 他穿什么衣服?(看身体)

以前的理论有两种极端看法:

  • 完全分家派:大脑里有一个专门的“脸处理中心”和一个专门的“身体处理中心”,它们互不干扰,就像两个不同的部门。
  • 完全合体派:大脑里只有一个“人处理中心”,脸和身体混在一起处理,分不清彼此。

但这篇论文发现,现实情况既不是完全分家,也不是完全合体,而是一种**“渐进式融合”**。

2. 人工智能的启示:大脑里的“混合特工”

研究人员训练了 AI 模型(就像教一个机器人认图),让它学会识别各种物体。他们发现,在这个 AI 的“大脑”(神经网络层)里,出现了三种类型的“神经元”(可以理解为 AI 的细胞):

  1. 脸专才:只认脸,看到身体就发呆。
  2. 身专才:只认身体,看到脸就发呆。
  3. 混合特工(Mixed-selective units):这是最关键的发现!它们既认脸,又认身体

比喻:
想象一个侦探团队。

  • 早期阶段(AI 的浅层):团队里有专门负责看“眼睛”的侦探,和专门负责看“鞋子”的侦探。他们各干各的。
  • 后期阶段(AI 的深层):出现了一批**“全能侦探”**。他们既能看眼睛,也能看鞋子,还能把这两条线索结合起来,判断出“这是一个正在跑步的人”。

研究发现,随着信息在 AI 网络中传递得越深(从后脑勺到前脑勺的方向),这种“混合特工”的数量就越多。

3. 人类大脑的验证:从“分工”到“协作”

研究人员接着把 AI 的“混合特工”和人类大脑的扫描数据(fMRI)进行对比。结果令人惊讶:

  • 后脑勺区域(初级视觉区):这里主要是“脸专才”和“身专才”在干活。它们分工明确,各自负责提取脸或身体的特征。
  • 前脑勺区域(高级视觉区):这里主要是“混合特工”在活跃。它们把脸和身体的信息融合在一起,形成对“整个人”的完整认知。

比喻:
这就好比一个交响乐团

  • 在乐团的后排(后脑勺),小提琴手只拉小提琴,大提琴手只拉大提琴,大家各司其职,声音是分离的。
  • 到了乐团的前排(前脑勺),指挥家(混合区域)把小提琴和大提琴的声音融合在一起,演奏出和谐、完整的交响乐(完整的人像)。

关键发现: 大脑并不是把脸和身体完全分开,也不是完全混在一起,而是随着信息处理的深入,逐渐从“分工”走向“融合”

4. 为什么需要“混合特工”?

你可能会问:既然有“脸专才”和“身专才”,为什么还需要“混合特工”?

  • 灵活性:研究发现,“混合特工”虽然不像“专才”那样对单一特征那么敏感,但它们非常灵活
    • 如果你要认(比如找朋友),“脸专才”最重要。
    • 如果你要认(比如找穿红衣服的人),或者判断动作(比如他在跑步),“混合特工”就派上用场了,因为它们同时掌握了脸和身体的信息。

比喻:

  • 专才像是特种部队,擅长解决特定问题(比如只负责拆炸弹)。
  • 混合特工像是全能管家,虽然拆炸弹不如特种部队快,但他们能同时处理做饭、修水管、照顾孩子,应对复杂多变的日常生活。

5. 总结:我们是如何“看”到一个人的?

这篇论文告诉我们,大脑处理“人”的过程是一个层层递进的故事:

  1. 第一步(分离):先分别看清脸和身体(像拼图的两块碎片)。
  2. 第二步(融合):随着信息传递,大脑开始把这两块碎片拼起来,形成对“整个人”的理解。
  3. 结果:我们的大脑既保留了识别细节的专业性(能认出是谁的脸),又拥有了理解整体的灵活性(能看出他在做什么)。

一句话总结:
我们的大脑不像是一个把脸和身体切开的切菜板,而更像是一个智能的搅拌机——先把食材(脸和身体)分开处理,最后把它们完美地搅拌成一杯营养丰富的“人”的果汁。这种“部分分离、逐渐融合”的机制,让我们既能看清细节,又能理解整体。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →