SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

本文提出了 SurgAtt-Tracker 框架,通过时间提议重排序和运动感知细化技术将手术注意力追踪建模为时空学习问题,并发布了大规模基准数据集 SurgAtt-1.16M,实现了在复杂手术场景下鲁棒且可解释的连续视野引导。

Rulin Zhou, Guankun Wang, An Wang, Yujie Ma, Lixin Ouyang, Bolin Cui, Junyan Li, Chaowei Zhu, Mingyang Li, Ming Chen, Xiaopin Zhong, Peng Lu, Jiankun Wang, Xianming Liu, Hongliang Ren

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SurgAtt-Tracker 的新技术,它的核心任务是:在微创手术中,像一位经验丰富的助手一样,自动知道医生此刻正盯着哪里看,并据此自动调整摄像头的角度。

为了让你更容易理解,我们可以把这场手术想象成一场在狭窄、充满烟雾的洞穴里进行的“寻宝游戏”

1. 现在的困境:盲人摸象 vs. 疲惫的向导

  • 现状:微创手术(比如腹腔镜手术)就像医生在一个只有一个小孔(肚脐眼)的洞穴里操作。医生看不见外面,只能靠一个摄像头(内窥镜)传回来的画面。
  • 问题:以前,这个摄像头是由一位专门的助手(护士)手动拿着的。
    • :手术时间长,助手会手抖、疲劳,导致画面乱晃。
    • :医生想往左看,得喊助手,助手反应慢半拍,或者理解错了,画面就偏了。
    • :有时候医生在看出血点,助手却把镜头对准了旁边的工具,完全没跟上医生的思路。

2. 以前的尝试:笨拙的“猜谜游戏”

以前的智能摄像头系统,大多是在玩“猜谜”:

  • 猜工具:系统认为“医生肯定在看手术刀”,所以镜头就死死盯着刀尖。
  • 猜指令:医生得用眼睛看、用嘴喊,甚至用头动来指挥摄像头。
  • 缺点:这太死板了!有时候医生盯着刀,但注意力其实是在刀尖下的那团肉上;有时候医生在看旁边的组织,而不是工具。如果只盯着工具,就会错过关键信息。

3. SurgAtt-Tracker 的解决方案:读心术 + 老练的导航员

这篇论文提出的 SurgAtt-Tracker,不再猜“工具在哪里”,而是直接猜"医生的注意力在哪里"。它把医生的注意力想象成一张发光的“热力图”(Heatmap):

  • 热力图:就像天气预报里的降雨量分布图。颜色越红,代表医生越关注;颜色越淡,代表医生不太在意。这比只盯着一个点(比如刀尖)要聪明得多,因为它能覆盖一片区域。

它是怎么做到的?(三个核心步骤的比喻)

想象 SurgAtt-Tracker 是一个拥有“读心术”和“超级记忆力”的自动驾驶导航员

第一步:广撒网(Proposal Generation)

  • 比喻:就像你在找丢失的钥匙。普通的摄像头会直接猜“钥匙肯定在桌子上”。但 SurgAtt-Tracker 会先快速扫描整个房间,列出10 个最有可能的地方(比如桌子、沙发、地毯、门口)。
  • 技术:它先让一个强大的检测器(YOLOv12)快速找出画面里所有可能的“目标候选项”。

第二步:时间线推理(Temporal Reranking)

  • 比喻:这是最精彩的部分。假设上一秒你正在看桌子,这一秒你突然看向沙发。
    • 普通的系统可能会因为沙发上有反光(烟雾、血迹)而误判,以为钥匙在反光处。
    • SurgAtt-Tracker 会想:“等等,上一秒他在看桌子,根据他的习惯和动作连贯性,他下一秒最可能是看向沙发,而不是突然跳到地毯上。”
    • 它会利用时间连贯性,从刚才列出的 10 个候选项中,重新排个序,把“最符合逻辑”的那个挑出来。这就叫**“提案重排序”**。它不是只看这一帧,而是结合上一帧的记忆来“猜”这一帧。

第三步:微调与平滑(Motion-Aware Refinement)

  • 比喻:刚才选出的“沙发”位置可能还差几厘米。这时候,导航员会结合动作惯性进行微调。
    • 如果医生是慢慢移动视线,摄像头就平滑地跟过去。
    • 如果医生突然转头(比如大出血),摄像头就迅速但稳定地跟上去,不会乱晃。
    • 它把刚才选中的那个“大概位置”,通过数学计算,精确到像素级别,最终生成一张完美的注意力热力图

4. 为什么它这么厉害?(SurgAtt-1.16M 数据集)

为了训练这个“读心术”导航员,作者们做了一个巨大的**“手术注意力训练库”(SurgAtt-1.16M)**。

  • 比喻:以前大家训练 AI 都是看一些零散的、不完整的视频。这次,他们收集了141 小时真实的手术录像,涵盖了直肠、胃、子宫、肾脏等多种手术。
  • 关键创新:他们不是让医生标注“工具在哪里”,而是让资深外科医生标注"你此刻最关注哪里"。这就像让老师教学生“解题思路”,而不是只教“答案”。
  • 这个数据库有 116 万帧画面,是目前最大的同类数据库,让 AI 见识了各种复杂情况(烟雾、出血、多个工具乱飞)。

5. 总结:这对未来意味着什么?

  • 更稳:摄像头不再手抖,也不会因为助手疲劳而乱飘。
  • 更懂你:它不需要医生开口,就能自动把镜头对准医生正在思考的区域(无论是工具、组织还是出血点)。
  • 更安全:在复杂的手术中,它能帮医生“看”得更清楚,减少误操作。

一句话总结
SurgAtt-Tracker 就像给手术机器人装上了一个**“懂医生心思的超级副驾”**。它不再死板地跟着手术刀跑,而是通过观察医生的视线习惯和动作连贯性,自动把镜头调整到医生最想看的“黄金视角”,让微创手术变得更安全、更流畅。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →