Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 医生像人类专家一样“看”片子的故事。

想象一下,你正在教一个非常聪明的学生(AI 模型)如何当放射科医生。

1. 以前的困境:只会“背课文”的 AI

传统的 AI 医生(视觉语言模型,VLM)虽然能看懂 X 光片,但它的思考方式有点“偏科”。

  • 它的做法:先把 X 光片里的图像转换成文字描述(比如“这里有个白点”),然后像写文章一样,在文字的世界里进行推理,最后得出结论。
  • 问题所在:这就像让一个厨师只通过读食谱(文字)来炒菜,却不去闻香味、尝味道(视觉细节)。对于 X 光片这种高度依赖视觉的任务,把图像强行翻译成文字,会丢失很多微妙的细节。

2. 人类的智慧:医生是怎么看片子的?

真正的放射科医生在看片子时,并不是把整张片子一眼扫完,然后背出结论。

  • 他们的做法:他们会按顺序移动视线。先看心脏,再看肺部边缘,如果有可疑的地方,视线会停留、反复确认,把看到的线索一点点拼凑起来。
  • 关键证据:这种视线的移动轨迹(眼动数据),就是医生“思考”的过程。它记录了医生是如何一步步收集证据的。

3. 论文的创新:给 AI 装上“视线导航”

这篇论文的作者们想出了一个绝妙的主意:不要只教 AI 看结果,要教它模仿医生的“视线移动”

他们做了一件很酷的事情:

  • 引入“视线令牌”:他们在 AI 的回答中,强行插入了几个特殊的“占位符”(就像四个空位)。
  • 模拟视线:他们利用真实医生看片子时的眼动数据,告诉 AI:“在这个步骤,你的视线应该落在图片的哪个小方块上;在下一个步骤,视线应该移到哪里。”
  • 训练过程:AI 被要求先输出这四个“视线步骤”(比如:先看左上角,再看中间,再看右下角),然后再给出最终的诊断报告。

打个比方
以前,AI 像是闭着眼睛听别人描述,然后猜答案。
现在,AI 像是戴着一副“视线眼镜”,老师(眼动数据)会指着它说:“先看这里,再看那里,最后看这里。”AI 必须跟着老师的视线走,把看到的线索串联起来,最后才能开口说话。

4. 为什么这样做更好?

  • 像人一样思考:AI 不再是一次性把所有信息塞进脑子里,而是学会了分步骤、按顺序地收集证据。这就像侦探破案,先找线索 A,再找线索 B,最后拼出真相。
  • 更懂“看图”:因为它是直接对着图片的局部(小方块)进行思考,而不是先把图变成文字,所以它保留了更多图像的细节。
  • 举一反三:实验发现,这种学会了“如何看”的 AI,即使遇到没见过的医院或不同质量的片子(外部测试),也能表现得比那些只背过“标准答案”的 AI 更稳定、更准确。

5. 总结

简单来说,这篇论文的核心思想是:“思考”不仅仅是用语言,更是用眼睛。

通过让 AI 模仿人类专家按顺序移动视线的过程,我们教会了 AI 如何像真正的放射科医生一样,一步步地、有逻辑地从 X 光片中寻找证据。这不仅提高了诊断的准确率,还让 AI 的决策过程变得更加透明、可解释(我们可以直接看到它“看”了哪里),让医生们更放心地信任它。

一句话总结
这就好比教 AI 医生,不再是让它死记硬背“肺炎长什么样”,而是拿着它的眼睛,手把手教它“先看哪里,再看哪里”,让它学会像专家一样去“观察”和“推理”。