TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TrajPred 的新系统，它的目标是让 AI 像“老练的外科医生”一样，看懂手术视频中器械和人体组织之间到底在发生什么互动。

为了让你更容易理解，我们可以把这场手术想象成一场复杂的“双人舞”：

器械（比如手术钳、剪刀）是舞者 A。
人体组织（比如胆囊、血管）是舞者 B。
手术动作（比如“夹住”、“切割”、“牵拉”）就是他们跳舞的步法。

现在的 AI 助手虽然能看懂视频，但在理解这种“双人舞”的细微动作时，经常犯迷糊。这篇论文就是为了解决这个问题。

🚩 现有的 AI 遇到了什么麻烦？

作者指出了两个主要“痛点”：

只看“定妆照”，不懂“连招”：
很多现有的 AI 就像是一个只看单张照片的摄影师。它看到一张图，上面有个钳子夹着肉，它就猜是“夹住”。但很多动作（比如“切割”或“牵拉”）是连续的，必须看一连串的动作才能明白。就像你看一个人举起手，单看照片不知道他是想“打招呼”还是“投降”，必须看他手是怎么动的。现有的 AI 往往忽略了这种时间上的连贯性。
眼神“太发散”，抓不住重点：
现在的 AI 在看视频时，就像是一个拿着广角镜头的观众，它把整个画面（包括背景、灯光、无关的器械）都混在一起看。这就导致它有时候会把背景里的东西误认为是动作的一部分。比如，它可能觉得“背景里的灯光”和“切割”这个词有关，而不是盯着“钳子切肉”这个核心动作。它抓不住细节。

💡 TrajPred 是怎么解决的？（三大绝招）

为了解决这些问题，作者给 AI 装上了三个“超能力”：

1. 给 AI 装上“轨迹追踪器” (Trajectory Tokens)

比喻：想象一下，你让 AI 在手术视频里玩“捉迷藏”，但它不是找静止的物体，而是专门盯着手术器械的“运动轨迹”。
做法：系统会像跟踪足球运动员一样，专门记录手术器械在每一帧画面中是怎么移动的（比如：从左边移到右边，或者上下抖动）。
效果：AI 不再只看静态的图片，而是通过器械的运动路线来理解动作。比如，看到器械快速划过组织，它就知道是“切割”；看到器械慢慢把组织拉开，它就知道是“牵拉”。这就像通过舞者的舞步轨迹来猜他在跳什么舞，而不是只看他站在哪。

2. 让 AI 学会“预测”而不是“死记硬背” (Embedding Prediction)

比喻：传统的 AI 像是在做填空题（给图选词），而 TrajPred 像是在玩**“看图说话”的预测游戏**。
做法：它不再强行把图片和文字对齐，而是让 AI 根据看到的器械运动，去预测“接下来应该出现什么样的文字描述”。
效果：这种方法迫使 AI 去关注画面中最关键的细节（也就是器械和组织的接触点），而不是被背景干扰。就像你听别人描述一个动作，如果你能准确预测出他接下来要说什么，说明你真正听懂了他在做什么。

3. 给 AI 换个“说话方式” (Verb Rephrasing & Prompt Tuning)

比喻：手术里的术语（比如"coagulate"）对普通 AI 来说太生僻了，就像让一个只会说日常用语的人去听天书。
做法：作者把那些高冷的医学术语，翻译成了更生动、更具体的日常描述。
- 比如，把"coagulate"（电凝）翻译成“通过加热止血”；
- 把"retract"（牵拉）翻译成“把东西拉到一边”。
效果：这让 AI 更容易理解动作的含义，特别是遇到它没见过的动作时，能靠这些生动的描述“举一反三”，猜个八九不离十。

🏆 结果怎么样？

作者在公开的手术视频数据集（CholecT50）上做了测试，结果非常棒：

更准了：AI 识别动作的准确率（比如分辨是“夹”还是“切”）显著提高。
更懂细节了：通过可视化热力图可以看到，TrajPred 的“目光”紧紧锁在器械和组织的接触点上，而不再像以前那样“眼神涣散”地看背景。
更聪明：即使遇到它没学过的动作组合（比如某种特殊的器械配合某种特殊的动作），它也能靠“轨迹”和“生动的描述”猜对。

🌟 总结

简单来说，TrajPred 就是给手术 AI 装上了一双能追踪运动轨迹的眼睛，并教会它用更生动的语言去描述动作。它不再是一个只会看单张照片的“死板学生”，而变成了一个能看懂连续舞蹈、抓住核心互动的“聪明助手”。

这对于未来的机器人手术非常重要，因为机器人只有真正看懂了医生在做什么，才能安全地辅助医生，甚至在将来学会自己动手术。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

在机器人辅助手术中，识别手术器械与组织的交互（Instrument-Tissue Interaction）对于构建上下文感知的 AI 助手至关重要。这种交互通常被形式化为结构化三元组：(器械，动词，目标)，例如 (持针器，夹持，胆囊)。

尽管现有的视觉 - 语言模型（VLMs）在手术感知任务中展现了良好的泛化能力，但在识别具体的器械 - 组织交互时仍存在显著局限，主要源于以下两个挑战：

缺乏对时序信息的利用：许多现有模型（包括基于对比学习的 VLM）主要依赖单帧图像或简单的视频输入，未能有效捕捉跨帧的运动模式。许多手术动作（如“分离”）仅凭单帧静态图像难以判断，需要观察连续的运动轨迹。
对比学习中的细节丢失：现有的手术 VLM 多采用对比学习，将整张图像（或视频块）的特征聚合后与文本对齐。这种全局聚合策略往往抑制了细粒度的空间细节，导致模型关注背景而非关键的器械 - 组织交互区域（如热力图所示，现有模型常将高相似度区域定位在背景或内窥镜边缘，而非实际交互点）。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 TrajPred，这是一个基于轨迹条件的联合嵌入预测框架。该方法将传统的对比学习对齐范式重构为语义嵌入预测任务。

核心架构组件：

基于 VL-JEPA 的预测结构：
- 不同于对比学习，TrajPred 采用类似 VL-JEPA 的架构。它包含一个冻结的视觉编码器、一个可训练的文字编码器和一个预测器（Predictor）模块。
- 预测器接收视觉令牌（Visual Tokens）和文本查询，直接预测最终的语义嵌入，而不是学习将图像和文本映射到同一空间。这有助于保留细粒度的动作细节。
轨迹令牌编码 (Trajectory Token Encoding)：
- 为了显式地引入时序运动线索，TrajPred 引入了轨迹令牌（Trajectory Tokens）。
- 检测与提取：利用检测器（如 Fast R-CNN）获取每一帧中器械的边界框。
- 双流聚合：
  1. 外观流 (Appearance Stream)：对边界框内的视觉令牌进行平均池化，并通过交叉注意力机制聚合跨帧的外观特征。
  2. 位置流 (Position Stream)：将边界框坐标映射为位置嵌入，同样通过交叉注意力聚合，捕捉器械的运动轨迹。
- 融合：将外观特征和位置特征相加，生成每个器械的单一轨迹令牌 $\tau^{(k)}$ 。
- 输入增强：将这些轨迹令牌与视频管状令牌（Tubelet Tokens）拼接，共同输入到预测器中，引导模型关注器械的动态行为。
文本编码器微调与动词重述 (Prompt Tuning & Verb Rephrasing)：
- 提示微调 (Prompt Tuning)：采用 CoOp 风格的策略，仅学习少量的上下文令牌（Context Tokens），冻结预训练的文本编码器（Gemma），以保持预训练知识的泛化性。
- 动词重述 (Verb Rephrasing)：为了缩小手术专业术语与通用语言预训练分布之间的差距，将简单的动词标签（如 "retract"）重述为更描述性的自然语言短语（如 "pulling aside"）。这有助于模型更好地关联未见过的动作组合。
训练目标：
- 使用多标签二元交叉熵损失（Multi-label Binary Cross-Entropy Loss）来优化预测器输出的嵌入与文本嵌入之间的余弦相似度。

3. 关键贡献 (Key Contributions)

范式转变：将器械 - 组织交互识别从“对比学习对齐”重构为“语义嵌入预测”问题，有效捕捉细粒度的动作细节。
轨迹条件化：提出了一种显式编码器械运动轨迹的方法，通过轨迹令牌引导预测器关注时序运动线索，解决了单帧或全局特征无法区分复杂动作的问题。
语言适配策略：通过动词重述和提示微调技术，显著提升了模型在未见动词组合（Unseen Verb）上的泛化能力。
性能提升：在公开基准数据集 CholecT50 上，该方法在平均精度（AP）和 Top-K 准确率上均超越了现有的 SOTA 方法（包括 SurgVLP, HecVL, PeskaVLP 等）。

4. 实验结果 (Results)

实验在 CholecT50 数据集上进行，该数据集包含 50 个腹腔镜胆囊切除术视频，标注了 100 种动作三元组。

整体性能：
- 在标准 RDV 划分下，TrajPred 取得了最佳的三元组平均精度 (APIVT: 14.77)，优于次优的 VL-JEPA (Video) 1.28 个百分点。
- 在 Top@K 指标上表现优异，Top@20 准确率达到 97.02%。
未见动词泛化 (Unseen Verb)：
- 在移除了特定动词（如 irrigate, retract 等）的训练集设置下，TrajPred 的 APIVT 达到 11.26，显著高于其他基线模型（次优为 9.02），证明了其强大的泛化能力。
罕见动作识别：
- 对于低频出现的器械 - 动词对（如 "Grasper-pack"），TrajPred 的 AP 从 18.1 提升至 32.9，显示出对罕见动作更强的建模能力。
可视化分析：
- 通过可视化余弦相似度热力图发现，TrajPred 的高相似度区域准确聚焦于器械与组织的交互区域。相比之下，基线模型（如 SurgVLP）的热力图往往分散在背景或内窥镜边缘，证实了轨迹令牌有效引导了模型关注关键动作区域。
效率：
- 引入轨迹令牌带来的计算开销极小，模型参数量仅增加约 3.4%，推理延迟仅增加 0.34ms。

5. 意义与展望 (Significance)

临床价值：TrajPred 提高了手术 AI 对细微动作和交互的识别精度，这对于术中实时辅助、手术技能评估以及未来的机器人自主操作至关重要。
技术启示：该工作证明了在医疗 VLM 中，显式建模细粒度运动轨迹比单纯依赖全局图像 - 文本对齐更为有效。它为解决医疗场景中“长尾动作”识别和“未见动作”泛化提供了新的思路。
未来方向：作者指出当前使用固定帧率（1 FPS）可能无法捕捉所有类型的快速或缓慢动作，未来工作将探索自适应帧率采样，并将此时空编码策略扩展到更大规模的数据预训练中。

总结：TrajPred 通过结合轨迹条件化的嵌入预测和细粒度的语言提示工程，成功克服了现有手术 VLM 在时序信息利用和细节捕捉上的不足，显著提升了手术动作三元组识别的准确性和泛化性。