GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

本文提出了 GroundedSurg,这是首个面向多手术场景的语言条件化实例级手术工具定位基准,旨在通过结合自然语言描述与像素级定位标注,填补现有评估范式在解析特定器械实例功能角色及空间关系方面的空白,从而推动具备临床现实推理能力的手术人工智能系统发展。

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

本文提出了一种名为 TCD-Net 的基于因果干预的图像去噪框架,通过环境偏差调整、正交内容 - 噪声解耦以及利用 Nano Banana Pro 引导因果先验,有效解决了传统模型中内容噪声纠缠与高频细节丢失问题,在 RTX 5090 上实现了 104.2 FPS 的实时高性能去噪。

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

本文提出了 GRAD-Former,一种基于门控鲁棒注意力机制的微分 Transformer 框架,通过引入自适应特征相关性与细化(AFRAR)模块,在显著降低模型参数量的同时,有效解决了高分辨率遥感图像变化检测中计算复杂度高及小样本训练下特征利用不足的问题,并在多个数据集上取得了优于现有最先进模型的性能。

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI