Exploring EEG and Eye Movement Fusion for Multi-Class Target RSVP-BCI

本文针对多类快速序列视觉呈现脑机接口(RSVP-BCI)中单一脑电模态解码性能受限的问题,构建了包含 43 名受试者的眼动与脑电融合开源数据集,并提出了一种结合双互补模块、基于理论模态贡献比的动态重加权融合策略以及层级分类器知识迁移的 MTREE-Net 网络,显著提升了多类目标 RSVP 的解码精度。

Xujin Li, Wei Wei, Kun Zhao, Jiayu Mao, Yizhuo Lu, Shuang Qiu, Huiguang He

发布于 2026-03-11
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一项关于**“读心术”的升级研究**。简单来说,科学家们想开发一种更聪明的“脑机接口”(BCI),让你只用“想”就能在海量图片中快速找出特定的东西。

为了让你更容易理解,我们可以把这项研究想象成**“在拥挤的火车站找朋友”**。

1. 背景:以前的“找朋友”有多难?

想象一下,你站在火车站的显示屏前,屏幕上像流水一样快速闪过成千上万张人脸照片(这就是RSVP,快速序列视觉呈现)。

  • 以前的系统(单类目标): 你只需要找“穿红衣服的人”。只要看到红衣服,大脑就会发出一个特殊的信号(就像大脑按了一个“叮!”的按钮,科学家叫它P300)。系统通过监测你的脑电波(EEG)来识别这个“叮!”,从而帮你找到目标。
  • 现在的挑战(多类目标): 现实世界更复杂。你不仅要找“穿红衣服的人”,还要同时区分“穿蓝衣服的人”和“穿绿衣服的人”。这就好比你要在人群中同时认出三个不同的朋友。
    • 问题: 当你看到红衣服、蓝衣服或绿衣服时,大脑发出的“叮!”信号非常相似,就像三个朋友都穿着相似的制服,光靠听大脑的“叮”声,很难分清是谁。

2. 新招数:给大脑装个“眼睛”

研究者发现,除了大脑会发出信号,我们的**眼睛(眼球运动,EM)**也会“出卖”我们。

  • 当你看到感兴趣的目标时,瞳孔会放大,视线会停留得更久。
  • 比喻: 如果大脑是“指挥官”,眼睛就是“侦察兵”。以前我们只问指挥官(脑电波),现在我们把侦察兵(眼动数据)也叫来一起开会。

3. 核心发明:MTREE-Net(超级翻译官)

为了解决“信号太像分不清”的问题,作者设计了一个名为 MTREE-Net 的人工智能模型。我们可以把它想象成一个**“超级翻译官团队”**,它由四个聪明的部门组成:

A. 双路情报收集(特征提取器)

  • 脑电波部门: 像是一个经验丰富的老侦探,用多倍放大镜(多尺度卷积)去捕捉大脑信号中细微的时间变化和空间位置。
  • 眼动部门: 像是一个敏捷的速记员,快速记录瞳孔大小和视线方向。
  • 作用: 确保两种不同的情报都被完整、清晰地记录下来。

B. 互助互补小组(双互补模块 DCM)

  • 痛点: 脑电波信号很强,眼动信号相对较弱。如果让它们直接合作,弱的一方容易被强的一方“带偏”,导致眼动信号没被充分利用。
  • 比喻: 这就像让一个强壮的拳击手和一个瘦弱的武术家组队。如果只让拳击手指挥,武术家的技巧就浪费了。
  • 解决方案: 这个模块让两者互相学习。拳击手(脑电波)教武术家(眼动)如何发力,武术家也提醒拳击手注意细节。这样,两个信号都变得更清晰、更有区分度。

C. 动态加权委员会(贡献引导重加权模块)

  • 痛点: 有时候“红衣服”主要靠大脑信号判断,有时候“蓝衣服”主要靠眼睛信号判断。如果给两者的权重(投票权)固定不变,效果就不好。
  • 比喻: 这是一个智能投票系统。系统会实时计算:“这次判断,大脑的贡献大,还是眼睛的贡献大?”
  • 创新点: 以前的系统只是瞎猜谁重要,而这个系统通过理论计算,明确知道谁在当前的判断中贡献更大,然后动态调整权重,把更多的“信任票”投给贡献大的那个信号。

D. 师徒教学系统(分层自蒸馏模块)

  • 痛点: 最难的是把“非目标”(路人)和“目标”(朋友)区分开。系统容易把路人误认成朋友。
  • 比喻: 这是一个**“先学走,再学跑”**的策略。
    1. 第一步(二元分类): 先教模型最简单的任务——“这是朋友吗?”(是/否)。这一步准确率很高,像个好老师。
    2. 第二步(三元分类): 再教模型复杂的任务——“这是红衣服朋友、蓝衣服朋友还是路人?”
    3. 自蒸馏: 让那个“好老师”(二元分类器)把它的经验传授给“学生”(三元分类器),告诉它:“看到这种信号,大概率是路人,别搞错了。”从而大大减少把路人认成朋友的错误。

4. 成果:真的有效吗?

作者找了 43 个人做了实验,收集了他们的脑电波和眼动数据,建立了一个开源数据库。

  • 结果: 使用这个“超级翻译官”(MTREE-Net),系统识别不同类别目标的准确率,比之前所有只用脑电波的方法,或者只用简单融合的方法都要高。
  • 关键发现: 加入“眼睛”的数据后,系统不仅看得更准,而且能更好地区分那些长得像的目标(比如红衣服和蓝衣服)。

总结

这项研究就像给未来的“意念控制”系统装上了一双**“慧眼”
以前,我们只能靠大脑的“模糊信号”来猜你想找什么;现在,通过
脑电波 + 眼动的双模态融合,加上智能互补动态投票**的算法,系统能更精准、更快速地在海量信息中帮你找到真正想要的东西。

这不仅让脑机接口在现实应用(比如快速筛选监控视频、辅助搜索)中变得更实用,也为未来开发更智能的人机交互系统打下了坚实的基础。