cs.CV 篇论文 | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

本文提出了 PolGS++，一种通过集成偏振 BRDF 模型和深度引导可见性掩码机制，在无需昂贵光线追踪的情况下实现快速、高质量反射表面重建的物理引导高斯泼溅框架。

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

该论文通过识别并验证视觉 Transformer 中触发器的线性方向，揭示了不同后门攻击的内部处理机制差异，并据此提出了一种无需数据的权重检测方案，证明了机械可解释性在诊断和解决计算机视觉安全漏洞方面的有效性。

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

本文提出了 HanMoVLM，这是一种针对中国绘画领域的大规模视觉语言模型，通过引入专家验证的思维链（CoT）和基于真实拍卖数据的 HanMo-Bench 数据集，实现了专业级的画作评估，并作为测试时扩展的核心组件显著提升了中国画作生成的质量。

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

该论文提出了名为 MEDISEG 的数据集，通过提供涵盖 32 种药片及 8262 张图像（包括重叠、遮挡等复杂场景）的实例分割标注，有效解决了现有药片识别数据集缺乏真实世界复杂性的问题，并验证了其在提升药物错误预防 AI 模型性能及少样本泛化能力方面的显著价值。

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

本文提出了 BALD-SAM 框架，通过将贝叶斯主动学习中的分歧（BALD）策略适配到空间提示选择中，利用冻结的大模型结合轻量级预测头来量化认知不确定性，从而在交互式分割中自动定位最具信息量的区域进行提示，在跨领域基准测试中显著优于现有方法及人类标注。

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

该研究从部署导向视角出发，评估了基于两阶段目标检测框架的少样本药片识别系统在跨数据集视觉域偏移下的表现，发现虽然语义分类在极少样本下即可快速饱和，但在重叠和遮挡等复杂场景下定位与召回率显著下降，从而强调了训练数据真实性和诊断性评估对系统部署就绪的重要性。

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

该论文指出当前基于风格化的线索冲突基准在评估神经网络形状 - 纹理偏好时存在不稳定性与歧义性，并提出了名为 REFINED-BIAS 的新框架，通过构建平衡的线索对和基于排名的全类别评估指标，实现了对模型偏置更可靠、可解释的诊断与跨模型公平比较。

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

本文提出了一种基于商用笔记本电脑内置 Wi-Fi 硬件的首个无需外部设备或传感器的单站人体存在检测方案，通过引入范围滤波多普勒谱（RF-DS）技术和自适应多速率处理框架，实现了低复杂度、高稳定性且无需校准的隐私保护型用户存在感知。

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

本文提出了名为 UltrasoundAgents 的分层多智能体框架，通过模拟从病灶定位到局部特征分析再到证据整合的临床工作流，并结合解耦渐进式训练策略，实现了具有可追溯证据链和更高诊断准确性的乳腺超声辅助诊断。

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

该论文针对多模态大语言模型在长上下文场景中因视觉 token 注意力随文本序列增长而衰减（即“视觉淡化”）的问题，提出了一种基于模态交互解耦的模态间距离不变位置编码（DIPE）方法，通过保留模态内相对位置并固定模态间感知邻近性，有效消除了模态间距离带来的惩罚，从而显著提升了模型在长上下文中的视觉 grounding 能力。

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

该论文提出了一种名为 BiLaLoRA 的无监督真实图像去雾方法，通过利用 CLIP 构建语义对齐损失函数来指导去雾过程，并结合双层层位 LoRA 策略自动搜索并微调关键网络层，从而在无需参考图像的情况下显著提升了模型在复杂真实场景中的适应能力。

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

本文提出了名为 S2D 的新颖流程，通过结合高效的一步扩散模型修复稀疏点云图像伪影，并设计具有随机采样丢弃和加权梯度的重建策略，实现了仅需极少输入视图即可生成高质量、3D 一致的 3D 高斯泼溅（3DGS）重建。

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

该研究提出了一种用于口腔癌病变检测的新型 RPA 架构，通过引入单例设计模式和批处理技术，将预测时间从 0.29 秒大幅缩短至 0.06 秒，实现了比标准方法高 60 至 100 倍的效率提升。

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

本文提出了一种基于多模态潜在空间回放与增量特征调整机制的终身模仿学习框架，通过存储紧凑的跨模态潜在表示并约束任务嵌入的演化，在 LIBERO 基准测试中显著提升了持续策略优化能力并大幅降低了灾难性遗忘。

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

本文提出了名为 CBCTRepD 的双语口腔颌面 CBCT 报告生成系统，该系统基于大规模高质量配对数据构建，并通过临床验证证明其不仅能生成达到中级放射科医生水平的报告草稿，还能在放射科医生与 AI 协作中显著提升不同经验水平医生的诊断质量并减少漏诊。

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

该论文提出了一种名为“历史共识训练”的迭代方法，通过利用高斯混合模型聚类的多样性来构建参数空间中的稳定屏障，从而在无需特定架构约束或超参数调优的情况下，彻底消除了变分自编码器中的后验坍塌问题。

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

该论文提出了一种名为 Pointy 的轻量级 Transformer 点云架构，仅通过 3.9 万个点云样本的训练，便在性能上超越了依赖大规模跨模态监督或更多数据的基础模型，并通过统一的复现研究证明了精心设计的架构与训练策略在无需复杂 Tokenizer 的情况下即可实现卓越效果。

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

该论文提出了一种名为 SSL-V3 的自监督视频分类框架，通过联合无参考视频质量评估（VQA）与视频视觉 Transformer，利用对比学习机制将视频质量分数作为特征调节因子，有效解决了 VQA 标签稀缺问题并显著提升了在模糊视频等场景下的分类性能。

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

本文提出了 Med-DualLoRA，一种面向 3D 心脏 MRI 疾病检测的客户端感知参数高效联邦微调框架，通过解耦全局共享与本地低秩适应模块，在保护数据隐私的同时显著提升了多中心异构场景下的模型性能并降低了通信开销。

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

该论文提出了名为 VCR 的鲁棒低光照增强框架，通过包含基于方差引导特征过滤的通道自适应调整（CAA）模块和色彩分布对齐（CDA）模块，有效解决了现有方法中亮度与色彩通道不一致及分布错位的问题，从而在多个基准数据集上实现了超越现有技术的状态。

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs