Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题定义 (Problem)
背景:
跨被试视觉解码(Cross-Subject Visual Decoding)旨在利用脑活动(如 fMRI)重建不同个体的视觉体验,这对构建可扩展的脑机接口至关重要。随着 CLIP 和 Stable Diffusion 等多模态基础模型的发展,从脑活动重建视觉图像取得了显著进展。然而,现有的方法大多针对单被试训练,难以直接泛化到新被试。
核心挑战:
尽管预训练模型在源被试上表现良好,但在仅使用少量数据(如 1 小时 fMRI 数据)对新被试进行微调(Fine-tuning)时,性能会显著下降。论文指出了导致这一现象的两个关键问题:
- 刺激层面的不一致性 (Stimulus-level Inconsistency): 微调过程破坏了预训练模型中清晰的语义边界。t-SNE 可视化显示,微调后的新被试数据中,不同类别的脑响应聚类变得模糊,导致模型难以区分不同的视觉刺激。
- 被试层面的错位 (Subject-level Misalignment): 现有的对齐方法通常假设不同被试看到完全相同的刺激,或者试图建立一对一的严格映射。然而,在自然场景数据集(NSD)中,超过 90% 的视觉刺激在不同被试间是不同的。直接对齐会导致模型无法捕捉个体特有的神经表征,且难以在缺乏共享刺激的情况下建立一致的跨被试对应关系。
目标:
如何在数据受限(仅约 1 小时 fMRI 数据)的情况下,将预训练的解码模型有效适配到新被试,同时保持刺激层面的语义一致性和被试层面的个体适应性。
2. 方法论 (Methodology)
论文提出了 Duala(Dual-Level Alignment),一个包含两个核心模块的联合学习框架,旨在同时解决上述两个层面的问题。
2.1 总体架构
Duala 基于 MindEye2 的预训练模型,采用 LoRA(Low-Rank Adaptation)进行高效微调。其核心思想是将 fMRI 表征分解为“刺激驱动因子”(共享语义响应)和“被试特异性因子”(个体解剖与功能差异),并分别施加约束。
2.2 刺激层语义保持 (Stimulus-level Semantic Preservation, SSP)
该模块旨在维持视觉表征的语义结构,防止微调过程中类别边界模糊。
- 语义对齐损失 (Semantic Alignment Loss, Lsa): 采用三元组损失(Triplet Loss)的思想。对于新被试的 fMRI 样本,强制同一类别(正样本)的嵌入距离小于不同类别(负样本)的距离。这确保了新被试的脑响应空间内,同类刺激保持紧密,异类刺激保持分离。
- 关系一致性损失 (Relational Consistency Loss, Lrc): 旨在保持新被试的类别间相似性结构与预训练源被试一致。
- 计算源被试各类别原型(Prototype)的成对余弦相似度矩阵,作为参考矩阵 Sref。
- 计算新被试的类别相似度矩阵 SsN。
- 最小化两者之间的差异,确保新被试的脑表征保留了预训练模型中学到的语义几何结构(例如,“猫”和“狗”的相似度关系在不同被试间应保持一致)。
2.3 被试层分布扰动 (Subject-level Distribution Perturbation, SDP)
该模块旨在增强模型对个体差异的适应性,防止过拟合或抹杀个体特征。
- 分布建模: 利用源被试数据建模每个类别的嵌入分布(均值 μc 和标准差 σcs)。
- 特征扰动策略:
- 将新被试的嵌入减去类别均值,分离出“被试特异性因子”。
- 利用源被试的分布偏差(σcs)对特异性因子进行高斯扰动增强。
- 公式:z~=μc+K1∑σcs⊙(z−μc)。
- 作用: 这种基于分布的增强模拟了跨个体的合理变异,使模型在适应新被试独特神经响应的同时,仍能保持与预训练特征分布的对齐,避免过拟合少量数据。
2.4 训练目标
最终损失函数结合了基础解码损失、语义对齐损失和关系一致性损失:
Lft=Ldec+λ1Lsa+λ2Lrc
其中 λ1 和 λ2 为平衡超参数。
3. 主要贡献 (Key Contributions)
- 提出了 Duala 框架: 一种新颖的微调方法,首次同时从刺激层面(保持语义结构)和被试层面(适应个体差异)解决跨被试解码难题。
- 设计了刺激层语义保持策略: 引入了语义对齐损失和关系一致性损失,有效解决了微调过程中语义边界模糊的问题,确保了不同语义类别在脑特征空间中的清晰分离。
- 开发了被试层分布扰动机制: 提出了一种基于分布的特征扰动策略,通过模拟个体间的合理变异,使模型能够适应新被试的独特脑响应,而无需大量数据。
- 实现了高效且鲁棒的解码: 在仅使用约 1 小时 fMRI 数据(单扫描会话)的情况下,实现了 SOTA 级别的解码性能,且参数量远少于现有方法。
4. 实验结果 (Results)
实验在 Natural Scenes Dataset (NSD) 上进行,对比了 MindEye2、MindAligner 和 MindTuner 等 SOTA 方法。
- 检索性能 (Retrieval):
- 图像到脑 (Image-to-Brain): Duala 平均准确率达到 81.1%,显著优于 MindTuner (76.0%) 和 MindEye2 (57.4%)。
- 脑到图像 (Brain-to-Image): Duala 平均准确率达到 84.5%,同样优于所有对比方法。
- 在四个测试被试(Subject 1, 2, 5, 7)上,Duala 均表现出一致的提升。
- 重建质量 (Reconstruction):
- 在低层指标(PixCorr, SSIM)和高层语义指标(Inception, CLIP, AlexNet)上,Duala 均取得了最佳或次佳成绩。
- 特别是在 CLIP 相似度上达到 83.5%,表明重建图像在语义上更准确。
- 可视化分析:
- t-SNE 可视化: 微调后的 MindEye2 类别边界模糊,而 Duala 保持了清晰的类别分离,验证了 SSP 模块的有效性。
- 功能对齐分析 (TQ Maps): Duala 生成的脑区热图显示出与全量数据模型一致的特定区域热点(如早期视觉区、PPA 等),而 MindEye2 的热点分布较为弥散,说明 Duala 更好地保留了功能特异性。
- 效率分析:
- Duala 在微调过程中仅引入 4.68M 可训练参数(MLP 部分),总参数量约为 69M,远低于 MindEye2 (2.2G) 和 MindTuner (76.7M),展现了极高的参数效率。
5. 意义与总结 (Significance)
Duala 的研究具有重要的科学意义和应用价值:
- 解决数据瓶颈: 证明了在仅使用极少量(1 小时)新被试数据的情况下,通过巧妙的双重对齐策略,可以实现高质量的跨被试脑解码,极大地降低了脑机接口应用的门槛和成本。
- 理论突破: 揭示了现有微调方法性能下降的根本原因在于“语义结构破坏”和“个体差异未建模”,并提出了针对性的解决方案,为理解大脑表征的共享性与特异性提供了新视角。
- 实用性强: 该方法不仅提升了重建图像的语义准确性,还保持了清晰的类别边界,对于未来的医疗诊断、神经科学研究以及个性化脑机接口开发具有直接的指导意义。
综上所述,Duala 通过刺激层的语义保持和被试层的分布适应,成功实现了在有限数据下的高效、鲁棒且语义一致的跨被试 fMRI 解码。