cs.CV 篇论文 | Gist.Science

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

本文提出了 ProSMA-UNet 模型，通过将跳连门控重构为解码器引导的稀疏特征选择问题，利用多尺度兼容性场与 $\ell_1$ 近端算子实现显式噪声抑制，从而在低对比度医学图像分割任务中显著提升了性能。

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

本文提出了名为 SpeciaRL 的特定性感知强化学习框架，通过引入基于在线推理最佳预测的动态验证器奖励信号，有效引导推理型多模态大模型在开放世界细粒度图像分类任务中实现正确性与特定性的最佳平衡。

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

本文提出了名为 MORPHEUS 的新设计空间，基于输入 - 模型 - 输出框架对深度草图驱动的 3D 建模技术进行了全面综述，旨在通过解决草图抽象与歧义性挑战，推动以用户意图为中心的跨学科研究发展。

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

该研究通过对比中文到阿拉伯语、希腊语到弗拉芒语两组不同手语对，利用 Google Mediapipe 提取特征并结合 MLP 与 GRU 架构进行实验，证实了基于象似性（Iconicity）的跨语言迁移学习能显著提升手语识别性能（阿拉伯语提升 7.02%，弗拉芒语提升 1.07%）。

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

本文提出了一种名为 mHC-HSI 的聚类引导超连接 Mamba 模型，通过设计结合物理光谱分组的聚类引导模块及可解释的软聚类残差矩阵，显著提升了高光谱图像分类的精度与可解释性。

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

该论文提出了一种包含反事实图像测试的评估框架，揭示了当前基于准确率的奖励机制导致多模态医疗推理模型出现“视觉依赖退化”和“幻觉性视觉推理”现象，表明仅凭准确率无法真实反映模型的视觉 grounding 能力，亟需引入感知视觉依赖的评估与训练目标。

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

本文针对实时 AI 伴侣面临的低延迟推理、自主响应决策及内容生成控制三大挑战，提出了 Proact-VL 通用框架并构建了 Live Gaming 基准数据集，通过游戏解说与引导等场景验证了该框架在实现低延迟、高质量且具备主动感知能力的实时交互方面的有效性。

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

该论文通过引入三种定位误差模型并在 Argoverse 2 数据集上评估 MapTRv2 变体，揭示了定位误差（尤其是航向角误差）会显著扭曲在线 HD 地图构建的标签质量，导致模型性能呈非线性下降，并据此提出了一种基于距离的评估指标。

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

本文提出了名为 PERSIST 的新型世界模型范式，通过模拟潜在 3D 场景（环境、相机和渲染器）的演化，实现了具备持久空间记忆和几何一致性的交互式视频生成，显著提升了长时稳定性并支持在 3D 空间中进行细粒度的环境编辑与控制。

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本文提出了 Phys4D，一种通过三阶段训练范式（包括大规模伪监督预训练、基于仿真的监督微调及强化学习）将视频扩散模型转化为物理一致 4D 世界表示的方法，显著提升了生成内容在细粒度时空动态与物理合理性方面的表现。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

本研究提出了一种地理加权弱监督贝叶斯高分辨率 Transformer 模型，通过融合 Sentinel-1、RCM 和 AMSR2 多源数据，实现了 200 米分辨率的泛北极海冰密集度制图及其不确定性量化，有效克服了特征细微、标签不精确及数据异质性挑战。

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

本文提出了 PhyPrompt，一种基于强化学习的两阶段提示词优化框架，通过物理思维链微调与动态奖励课程策略，在仅使用 7B 参数模型的情况下显著提升了文本生成视频的物理合理性，同时兼顾语义忠实度并超越了更大规模的通用模型。

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

本文介绍了 Pinterest 为解决多模态推荐与检索挑战而提出的 PinCLIP 模型，该模型通过创新的混合视觉 Transformer 架构及邻居对齐目标，在离线评估中显著超越现有基线，并在在线测试中有效提升了用户参与度及新内容的冷启动分发效果。

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

本文提出了名为 PolyV 的统一大视觉模型，通过稀疏混合专家架构与协同感知训练范式，实现了跨模态（图像、视频、3D）的深层协同推理，并在多项基准测试中显著超越了现有模型。

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

本文提出了一种面向微创手术的置信度感知单目深度估计框架，通过利用集成立体匹配模型生成校准置信度目标、设计置信度感知损失函数以及引入推理阶段置信度预测头，有效解决了内窥镜图像噪声干扰问题，显著提升了深度估计精度并实现了预测可靠性的量化评估。

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

本文提出了 L2G-Det 框架，通过利用模板与查询图像间的密集局部匹配生成候选点，并以此引导增强版 Segment Anything Model（SAM）进行实例特定提示，从而在无需显式物体提议的情况下，实现了对开放世界场景中遮挡和杂乱背景下新颖物体实例的鲁棒检测与分割。

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

本文提出了一种名为“环境无线电感知”（ARS）的新型集成感知与通信方案，通过利用现有的 5G 等环境通信信号进行被动式感知，结合自混频射频硬件架构与跨模态学习框架，在无需占用额外频谱资源的前提下实现了高精度的人体活动检测与骨架估计。

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

本文提出了一种受视觉问答启发的数据增强框架，通过为场景文本图像生成基于字符属性的自然语言问答任务，引导 OCR 模型进行细粒度推理，从而在 WordArt 和 Esposalles 数据集上显著降低了字符错误率和词错误率。

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

该论文提出了一种名为“交通场景图生成”的新任务及框架，通过融合交通事故数据与深度线索来增强视觉特征，旨在生成能够直观标注关键危害严重程度、作用机制及相对位置的交通场景图，从而提升自动驾驶在复杂场景下的以自我为中心的危害感知与推理能力。

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

本文提出了一种名为 DM-CFO 的扩散模型方法，通过结合文本与图约束逐步恢复缺失牙齿布局，并利用基于 3D 高斯的碰撞正则化项优化几何参数，从而实现了高质量且无碰撞的复合式 3D 牙齿生成。

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs