fMRI-Based Prediction of Eye Gaze During Naturalistic Movie Viewing Reveals Eye-Movement-Related Brain Activity

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在讲一个**“读心术”与“群体智慧”**的故事，只不过这里的“心”是我们在看电影时眼睛的动向，而“读心”的工具是核磁共振（fMRI）机器。

简单来说，科学家们想解决一个难题：很多以前的核磁共振扫描数据里，没有记录人们当时眼睛在看哪里（因为那时候还没普及眼动仪）。 如果不知道大家在看哪，就很难分析大脑是怎么处理视觉信息的。

于是，他们尝试用一种叫 DeepMReye 的超级人工智能（AI）模型，试图仅凭大脑扫描图像中眼球区域的信号，就“猜”出人们当时眼睛在看哪里。

以下是这篇论文的通俗解读：

1. 核心任务：给大脑扫描图“开天眼”

想象一下，你有一堆老电影（以前的核磁共振数据），但不知道观众当时盯着屏幕的哪个角落看。

传统做法： 需要重新给每个人戴上眼动仪，但这在老数据里做不到，而且给小孩或病人戴眼动仪也很难。
新方法： 作者直接拿出了一个**“预训练好的 AI 侦探”（DeepMReye 模型）。这个侦探以前在别的电影里学过怎么通过眼球信号猜视线，现在作者没有教它新东西（零样本设置）**，直接让它来猜新数据里的视线。

2. 实验结果：个人猜不准，但“群众”很聪明

这是论文最有趣的发现，可以用一个**“猜谜游戏”**来比喻：

个人水平（猜谜高手 vs. 普通人）：
如果你让 AI 去猜某一个人当时在看哪里，它猜得不太准。就像让一个没经过专门训练的人去猜另一个人的心思，准确率只有 20%-30% 左右。有时候它猜偏了，有时候猜对了，波动很大。
- 比喻： 就像让一个没戴过护目镜的人去猜别人在打乒乓球时球在哪，他只能瞎蒙。
群体水平（众口一词）：
但是，如果你把所有人的猜测结果平均一下，奇迹发生了！AI 猜出的“群体视线”和真实的眼动仪记录惊人地一致（准确率高达 70%-80%）。
- 比喻： 这就像“群体智慧”。虽然每个人猜得都有偏差，但当几百个人一起猜时，大家的错误互相抵消了，剩下的就是大家都盯着同一个地方看的那个“真相”。因为看电影时，大家通常会被精彩的画面吸引，视线是同步的。

3. 大脑地图：找到了“指挥眼睛的司令部”

既然群体视线猜得挺准，作者就用这个“群体视线”去分析大脑。

发现： 当视线移动时，大脑里有一片区域特别活跃。
位置： 这片区域包括额叶（前额）和顶叶（头顶后方）。
比喻： 这就像是大脑里的**“交通指挥中心”**。当眼睛要转向新目标时，这个指挥中心就会亮起红灯，发出指令。以前我们不知道这些老数据里眼睛怎么动，现在通过 AI 还原视线，我们终于能在大脑地图上画出这个“指挥中心”在哪里了。

4. 年龄的魔法：孩子和大人的“看戏”方式不同

作者还研究了不同年龄的人（从 3 岁小孩到 39 岁大人）在看电影时，大脑和眼睛的配合有什么不同。

发现： 这种配合不是简单的“越老越熟练”。
- 有些脑区在青少年时期最活跃，到了成年反而下降了（像是一个倒 U 型曲线）。
- 有些脑区随着年龄增长，视线同步性变好了（特别是垂直方向的视线，比如抬头低头看，大人比小孩更同步）。
比喻： 就像学骑自行车。刚开始（小孩）摇摇晃晃，到了青少年时期（青春期）可能骑得最猛、最投入，但到了成年（稳重期），虽然骑得稳了，但那种“疯狂探索”的脑区活跃度反而降下来了。而且，大人看垂直方向的东西（比如抬头看飞机）比小孩更整齐划一。

5. 总结：这个技术有什么用？

它的局限： 如果你想用它来精准监控某一个人的眼神（比如判断他是不是在走神，或者做临床诊断），现在的技术还不够准，就像现在的“群体智慧”不能直接用来猜“张三”具体在想什么。
它的巨大价值： 如果你想研究一大群人在看电影时的共同反应，或者想挖掘那些没有眼动仪的老数据，这个技术简直是神器。它能把那些“死”的数据复活，告诉我们大家当时都在看哪里，以及大脑是怎么反应的。

一句话总结：
虽然 AI 单独猜一个人的眼神还有点“迷糊”，但只要把它放在一群人里，它就能通过“集思广益”精准还原大家看电影时的视线，帮我们重新发现大脑里那些控制眼睛的“指挥中心”，并揭示出从孩童到成人，我们“看世界”的方式是如何微妙变化的。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于该论文的详细技术总结，涵盖了研究背景、方法、关键贡献、结果及意义。

论文标题

基于 fMRI 的自然主义电影观看眼动预测揭示眼动相关脑活动
(fMRI-Based Prediction of Eye Gaze During Naturalistic Movie Viewing Reveals Eye-Movement–Related Brain Activity)

1. 研究背景与问题 (Problem)

核心痛点：眼动（Gaze）是理解人类感知、注意力和认知过程的关键行为指标。然而，在功能性磁共振成像（fMRI）研究中，尤其是大型开放数据集或历史数据中，往往缺乏同步的眼动追踪记录。
现有局限：虽然深度学习模型（如 DeepMReye）可以从眼球区域的 MR 信号直接推断眼动，但这些模型通常需要在特定数据集上进行微调（Fine-tuning）。在缺乏地面真值（Ground Truth）眼动数据的场景下，预训练模型在**零样本（Zero-shot）**设置下的跨数据集泛化能力尚未经过充分评估。
研究目标：评估预训练的 DeepMReye 模型在零样本设置下，从自然主义电影观看的 fMRI 数据中重建眼动轨迹的准确性，并探究基于预测眼动数据能否有效映射与眼动相关的脑激活模式，特别是其随年龄发展的变化。

2. 方法论 (Methodology)

研究采用了三个独立的自然主义电影观看 fMRI 数据集，并在零样本设置下应用了 DeepMReye 模型：

数据集：
1. Natural Viewing (NV)：22 名成人，观看《The Present》和《Despicable Me》片段。包含同步眼动追踪数据，作为验证的“地面真值”。
2. Healthy Brain Network (HBN)：80-82 名健康儿童及青少年（5-21 岁），观看相同片段。无眼动数据。
3. Partly Cloudy (PC)：82 名儿童（3-12 岁）和成人，观看动画短片《Partly Cloudy》。无眼动数据。
模型应用：
- 使用 DeepMReye 框架的预训练权重（datasets_1to6.h5），未进行任何针对目标数据集的微调。
- 从 fMRI 时间序列中提取眼球区域体素信号，预测水平（x）和垂直（y）的眼动坐标。
分析流程：
1. 准确性验证：在 NV 数据集中，将预测眼动与真实眼动进行皮尔逊相关分析（个体水平 vs. 组水平）及平均绝对误差（MAE）计算。
2. 跨数据集一致性：比较 HBN 预测数据与 NV 真实数据的组平均轨迹。
3. 组间相关性 (ISC)：在 PC 数据集中分析预测眼动的组间同步性及其与年龄的关系。
4. 脑激活映射：
  - 计算预测眼动的帧间欧氏距离（Gaze Displacement）作为回归量。
  - 使用广义线性模型（GLM）进行第一级（个体）和第二级（组水平）分析，识别眼动相关的脑区。
  - 考察年龄和性别对眼动相关脑激活的调节作用（包括线性和非线性模型）。

3. 关键结果 (Results)

A. 眼动预测准确性

组水平表现优异：在 NV 数据集中，组平均预测眼动轨迹与真实眼动高度一致（相关系数 $r \approx 0.73 - 0.84$ ），且跨数据集（HBN vs. NV）也表现出高度同步性。
个体水平表现有限：个体层面的预测准确性较低且波动较大（ $r \approx 0.24 - 0.37$ ），平均绝对误差（MAE）约为 2.2°-2.75°。这表明零样本模型难以捕捉个体特异性的眼动细节。

B. 脑激活模式

组平均回归量的效果：基于组平均眼动预测的 GLM 分析成功揭示了广泛的、解剖学上合理的脑激活网络，包括：
- 眼动控制网络：额眼区（FEF）、顶内沟（IPS）。
- 视觉皮层：楔叶、舌回、初级视觉皮层。
- 这些结果在 HBN 和 PC 数据集中高度一致，证明了预测眼动作为回归量的有效性。
个体回归量的效果：基于个体预测眼动的分析仅显示出微弱、局限的视觉皮层激活，未能有效揭示眼动控制网络，进一步证实了个体预测噪声较大。

C. 年龄相关效应

非线性发展轨迹：眼动相关的脑活动随年龄变化呈现非线性特征，且依赖于刺激内容和数据集。
- HBN 数据集（观看复杂社交电影）：呈现倒 U 型轨迹，激活在儿童期至青春期增加，随后在成年早期下降。
- PC 数据集：呈现随年龄增长而下降的轨迹。
水平与垂直眼动的差异：垂直眼动的组间同步性随年龄显著增加（ $r=0.298, p=0.004$ ），而水平眼动同步性相对稳定，暗示垂直眼动控制系统的成熟可能更晚。

4. 主要贡献 (Key Contributions)

零样本泛化评估：首次系统评估了 DeepMReye 预训练模型在完全未微调的情况下，跨不同扫描协议、不同人群（儿童/成人）和不同刺激材料的泛化能力。
组平均策略的有效性：证明了虽然个体预测存在噪声，但**组平均（Group-averaged）**眼动预测能有效提取共享的、刺激驱动的眼动模式，足以用于下游的脑功能分析。
神经机制验证：利用预测眼动成功复现了经典的眼动控制脑网络（FEF, IPS），验证了 fMRI 信号中确实包含可解码的眼动信息。
发育轨迹的新发现：揭示了眼动相关脑活动随年龄发展的非线性特征，并指出这种特征受刺激性质和人群采样结构的强烈影响，挑战了简单的线性发展模型。

5. 意义与局限性 (Significance & Limitations)

意义

数据再利用：为大量缺乏眼动追踪的历史 fMRI 数据集（如 HCP, NSD 等）提供了“增强”眼动信息的新途径，使得研究者能够重新分析这些数据中的注意力和视觉处理机制。
方法论指导：明确了当前零样本深度学习模型在 fMRI 眼动解码中的适用边界——适用于群体水平的统计推断和神经机制研究，但不适用于个体层面的精细行为分析或临床诊断。
发育神经科学：展示了结合自然主义刺激与数据驱动方法在研究视觉注意和眼动控制发育过程中的潜力。

局限性

个体精度不足：由于缺乏特定数据集的微调、个体解剖差异及 fMRI 的时间分辨率限制（TR 远长于扫视持续时间），个体预测误差较大。
时间混叠：fMRI 的低时间分辨率导致无法区分单次大扫视和多次小扫视，只能捕捉宏观的眼动变化。
数据依赖：目前仅在一个数据集（NV）中有真实眼动数据进行验证，且刺激材料有限。

总结

该研究证实，尽管预训练的 DeepMReye 模型在个体层面存在局限，但在组水平上，它能从自然主义 fMRI 数据中可靠地重建眼动行为。利用这些重建的眼动数据，研究者能够有效识别与眼动控制相关的脑网络，并揭示其随年龄发展的非线性动态。这一发现为利用大规模、无眼动追踪的神经影像数据探索视觉注意和认知发展提供了强有力的工具。