cs.CV 篇论文 | Gist.Science

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

本文提出了 GroundedSurg，这是首个面向多手术场景的语言条件化实例级手术工具定位基准，旨在通过结合自然语言描述与像素级定位标注，填补现有评估范式在解析特定器械实例功能角色及空间关系方面的空白，从而推动具备临床现实推理能力的手术人工智能系统发展。

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

本文提出了 GuiDINO 框架，通过将 DINOv3 视觉基础模型重新定位为生成空间引导掩码的视觉引导器，利用轻量级 TokenBook 机制将先验知识注入专用分割骨干网络，从而在不进行全量微调的情况下显著提升了医学图像分割的质量与边界鲁棒性。

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

本文提出了 ClinCoT 框架，通过构建基于假设驱动区域提议的自动数据生成流水线及评分感知优化策略，将医疗视觉语言模型的偏好优化从响应级校正转变为视觉驱动的临床推理，从而显著提升了模型在医学任务中的事实 grounding 能力与整体性能。

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

本文提出了一种名为 PR-A²CL 的预测推理框架，通过结合增强异常对比学习与“预测 - 验证”范式，有效解决了复杂的组合视觉关系（CVR）任务，并在多个数据集上显著超越了现有最先进模型。

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

本文提出了一种名为 TCD-Net 的基于因果干预的图像去噪框架，通过环境偏差调整、正交内容 - 噪声解耦以及利用 Nano Banana Pro 引导因果先验，有效解决了传统模型中内容噪声纠缠与高频细节丢失问题，在 RTX 5090 上实现了 104.2 FPS 的实时高性能去噪。

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

本文提出了 ArtLLM 框架，利用基于大规模数据集训练的 3D 多模态大语言模型，直接从完整 3D 网格中自回归地预测可动物体的部件布局与关节结构，并生成高保真几何细节，从而显著超越了现有方法在部件布局精度、关节预测及泛化能力方面的局限。

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

本文提出了 TC-SSA 框架，通过基于门控路由的语义槽聚合机制，将全切片病理图像的海量图块压缩为固定数量的语义令牌，在显著降低计算成本的同时保留了关键诊断信息，从而在多项病理推理任务中实现了优于传统采样方法的性能。

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

本文提出了 ConVibNet 框架，通过引入新颖的交差损失函数并利用帧间时序依赖关系，显著提升了超声引导下连续进针过程中针尖定位与角度估计的精度与鲁棒性，实现了实时检测。

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

本文提出了 D-REX，一种基于高斯溅射的可微分实 - 仿 - 实引擎，通过从真实世界视觉与机器人控制信号中自动识别物体质量以构建高保真数字孪生，并结合人类演示迁移技术训练力感知抓取策略，从而有效缩小了仿真到现实的差距并实现了鲁棒的灵巧抓取。

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

本文提出了 GRAD-Former，一种基于门控鲁棒注意力机制的微分 Transformer 框架，通过引入自适应特征相关性与细化（AFRAR）模块，在显著降低模型参数量的同时，有效解决了高分辨率遥感图像变化检测中计算复杂度高及小样本训练下特征利用不足的问题，并在多个数据集上取得了优于现有最先进模型的性能。

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

本文提出了 BeautyGRPO 框架，通过构建细粒度偏好数据集 FRPref-10K 训练专用奖励模型，并引入动态路径引导（DPG）机制以平衡随机探索与高保真度需求，从而在保留人脸身份特征的同时实现符合人类审美偏好的高质量面部修图。

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

该论文提出了一种名为 FREE-Edit 的零样本图像驱动视频编辑框架，它利用新兴的整流流模型，并通过一种基于光流跟踪编辑区域的“编辑感知注入”（REE）策略来动态调节特征注入强度，从而在无需微调的情况下实现了比现有技术更高质量的视频编辑效果。

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

本文提出了名为 TripleSumm 的自适应三模态融合架构，通过动态加权视觉、文本和音频模态来解决现有视频摘要方法的局限性，并发布了首个包含这三种模态的大规模基准数据集 MoSu，实验表明该方法在多个基准测试中取得了最先进的性能。

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

本文提出了 VP-Hype 框架，通过融合线性效率的 Mamba 与关系建模能力的 Transformer 构建混合骨干网络，并结合视觉 - 文本双模态提示机制，在标签稀缺条件下实现了高光谱图像分类的精度突破与计算效率优化。

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

本文提出了 RnG，一种统一的 Transformer 模型，通过重建引导的因果注意力机制，能够从部分 2D 观测中同时实现可见几何的精确重建与不可见几何的合理生成，从而在保持实时高效的同时输出高保真的完整 3D 表示。

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

本文提出了 VisNec 框架，通过量化视觉输入对多模态指令微调的边际贡献来识别并筛选出真正依赖视觉推理的高质量样本，从而在显著减少训练数据量的同时实现了超越全量数据训练的性能表现。

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

CoSMo3D 通过利用大语言模型构建统一规范数据集，并设计双分支架构将输入姿态空间映射为稳定的规范嵌入，从而显著提升了开放世界提示式 3D 语义部件分割的鲁棒性与泛化能力。

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

本文提出了一种利用预训练视觉语言模型（VLM）结合 QLoRA 微调与条件路由机制，仅凭单目 RGB 图像、自然语言指令及机器人状态即可实现高精度 3D 物体位置估计的方法，显著提升了人机交互能力。

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

本文提出了用于评估跨策略泛化能力的 SafeEditBench 基准测试，并设计了基于可验证奖励强化学习（RLVR）的 SafeGuard-VL 方法，以解决现有视觉语言模型在动态安全策略下过拟合、泛化性差及指令遵循能力下降的问题。

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

本文通过实证分析揭示了现有视觉 Token 剪枝方法在特征多样性保持与幻觉抑制方面的局限性，并据此提出了一种结合图像感知调整的自适应剪枝机制，显著提升了大型视觉语言模型在复杂场景下的性能与可靠性。

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG