FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

本文提出了 FixationFormer,一种基于 Transformer 的架构,通过将专家眼动轨迹直接建模为序列令牌并与图像特征进行交叉注意力交互,有效解决了传统 CNN 难以直接利用稀疏且多变的眼动数据的问题,从而在胸部 X 光分类任务中实现了最先进的性能。

Daniel Beckmann, Benjamin Risse

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FixationFormer 的新方法,旨在让计算机像经验丰富的放射科医生一样“看”X 光片。

为了让你更容易理解,我们可以把这项技术想象成教一个新手侦探(AI)如何像老练的侦探(专家医生)一样破案

1. 核心问题:新手侦探的困惑

在医疗领域,分析胸部 X 光片(Chest X-Ray)就像让侦探在一张复杂的犯罪现场照片里找线索。

  • 难点:X 光片是平面的,但人体是立体的,骨头、器官和病变组织都重叠在一起,就像把一堆透明的玻璃纸叠在一起,很难看清哪张纸上有问题。
  • 传统做法:以前的 AI 主要靠“死记硬背”图片特征(就像新手侦探只盯着照片看,试图找出哪里颜色不对)。
  • 专家的优势:真正的放射科医生在看片子时,眼睛会移动,他们会先盯着心脏看,再扫视肺部,最后检查肋骨。这种眼球的移动轨迹(Gaze Trajectory),其实包含了医生诊断时的“思考逻辑”和“关注重点”。

2. 过去的尝试:把“思考过程”画成地图

以前,研究人员也想利用专家的眼球移动数据来教 AI,但他们通常把专家看过的地方画成一张热力图(Heatmap)

  • 比喻:这就像把侦探在案发现场走过的路线,用红笔在地图上涂成一个模糊的红圈。
  • 缺点:热力图虽然告诉 AI“这里很重要”,但它丢失了时间顺序。它不知道医生是“先看心脏,再看肺部”,还是“先看肺部,再看心脏”。而且,这种模糊的地图计算起来也很慢,不够精细。

3. 新方案 FixationFormer:把“思考过程”变成“剧本”

这篇论文提出了一个全新的思路:不要画地图,直接把专家的“眼球移动剧本”给 AI 看。

  • 核心创新:作者发现,Transformer(一种目前最先进的 AI 架构,擅长处理语言序列)和眼球移动天生就是绝配。
    • 语言是一句话接一句话(序列);
    • 眼球移动是一个点接一个点(序列)。
  • 具体做法
    1. 分词(Tokenization):把专家眼球停留的每一个点(Fixation),看作剧本里的一句“台词”或一个“单词”。
    2. 编码:不仅记录这个点在哪里(空间),还记录专家在这里看了多久、什么时候看的(时间和时长)。
    3. 融合:把这些“眼球剧本”直接喂给 AI,让 AI 在分析 X 光片的同时,同步阅读专家的“思考剧本”。

4. 两种“师徒对话”模式

为了让 AI 更好地吸收专家的“剧本”,作者设计了两种互动模式:

  • 模式一:单向指导(Cross-Attention)

    • 比喻:就像老师(专家眼球)在指导学生(AI 看图)。老师指着哪里,学生就重点看哪里。学生的注意力被老师的视线引导,但老师不需要看学生怎么看。
    • 效果:这种方法非常稳定,AI 能迅速学会专家的关注点,表现最好。
  • 模式二:双向交流(Two-Way Attention)

    • 比喻:就像老师和学生互相讨论。老师看学生关注的地方,学生也看老师关注的地方,试图互相理解。
    • 效果:理论上更完美,但在实际实验中,这种“互相讨论”反而让 AI 有点“晕头转向”,不如单向指导来得稳定和高效。

5. 实验结果:青出于蓝

研究人员在三个公开的胸部 X 光数据集上测试了这个方法:

  • 成绩:FixationFormer 的表现达到了最先进水平(State-of-the-Art)。在两个数据集上它是最强的,在第三个数据集上也和最好的方法持平。
  • 关键发现
    • 即使没有 X 光片,只给 AI 看专家的“眼球剧本”,AI 也能猜出大概的病情(虽然不如看图准,但说明剧本里真的有信息)。
    • 如果给 AI 配一个“普通老师”(普通的预训练模型),加上“专家剧本”后,AI 的成绩提升巨大。这说明专家的眼球轨迹是极其宝贵的“作弊器”,能帮 AI 在资源有限时也能看得很准。

总结

这篇论文就像是在说:“别只让 AI 死盯着照片看,让它学会像专家一样‘扫视’照片。”

通过将专家的眼球移动轨迹转化为一种特殊的“语言序列”,并直接喂给 AI,FixationFormer 成功地将人类的诊断直觉(先看点 A,再看点 B)融入了机器的大脑中。这不仅提高了诊断的准确率,也为未来让 AI 更像人类专家提供了新的思路。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →