cs.CV 篇论文 | Gist.Science

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

本文通过将基于概念归纳的神经元可解释性框架应用于 SUN2012 数据集，验证了该方法在场景识别任务中的泛化能力及其对隐藏神经元语义标签分配的有效性。

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

该论文针对混合架构长视频视觉语言模型，通过分析令牌重要性在层间的稀疏性与不稳定性，提出了一种结合语言感知评分机制与由低到高分阶段缩减策略的方法，在大幅加速推理的同时保持了高精度的性能。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

本文提出了 AdURA-Net，这是一种基于几何驱动的自适应不确定性感知框架，通过结合自适应空洞卷积、多尺度可变形对齐以及融合掩码二元交叉熵与狄利克雷证据学习的复合损失函数，旨在解决多标签胸部疾病分类中因放射学报告模糊性导致的不确定性问题，从而提升临床决策的可靠性。

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

本研究通过引入卷积层、LeakyReLU 激活函数、超参数优化及谱归一化等改进策略，对 SOUP-GAN 和 CSR-GAN 模型进行了优化，显著提升了高分辨率 MR 图像的重建质量，其中 CSR-GAN 在高频细节和去噪方面表现更佳，而 SOUP-GAN 则在图像结构保持和噪声抑制上更具优势，为疾病诊断提供了更优质的影像工具。

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

该论文提出了一种基于流匹配的稀疏视图 CT 重建框架（FMCT）及其高效变体（EFMCT），通过利用确定性轨迹和复用速度场来减少神经网络函数调用次数，在显著降低计算成本的同时实现了与扩散模型相当的重建质量。

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

本文介绍了 TACIT 基准，这是一个包含 10 个任务、覆盖 6 个推理领域的程序化视觉推理基准，通过生成式（确定性验证）和判别式（含结构化近邻干扰项的五选一）双轨评估机制，旨在克服现有基准依赖自然语言提示、推理模态狭窄及评分主观性等局限。

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

针对多模态大模型在推理过程中因过度依赖文本先验而忽视视觉信息的问题，本文提出了无需强化学习微调的 VisRef 框架，通过动态重注入语义相关且具代表性的视觉 Token 核心集，在固定计算预算下显著提升了视觉推理任务的性能。

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

该论文提出了一种基于定制数据集 CompGTSRB 训练 YOLOv5 模型并利用 GAN 生成自然主义对抗补丁的方法，通过 Quanser QCar 实车实验验证了这些补丁在不同距离、尺寸和位置下能有效降低交通标志检测器的 STOP 类别置信度，从而为评估物理世界对抗攻击及推动嵌入式感知防御研究提供了系统性的方法论。

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

本文提出了一种基于“最优测量”（PGM）的量子启发式多类分类器，将其应用于非小细胞肺癌亚型分类和前列腺癌风险分层，结果表明该方法在保持竞争力的同时，在部分任务中优于传统基线模型。

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

本文提出了一种无需降维或分块等技巧的端到端量子生成对抗网络，通过引入归纳偏置和增强噪声输入技术，在 MNIST、Fashion-MNIST 及 SVHN 等数据集上成功实现了全分辨率、多样化的图像生成，并确立了新的性能标杆。

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

本文针对视觉 - 红外密集预测任务中多模态对抗攻击面临的挑战，提出了一种无需内部模型信息的联合位置 - 颜色优化框架（AP-PCO），通过同步优化补丁位置与颜色并引入跨模态颜色适应策略，实现了在可见光与红外双模态下的高效隐蔽攻击。

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

该论文提出了利用臭氧吸收特征来估算并修正长波红外被动测距中反射下行辐射影响的新方法，通过四光谱和超光谱两种技术显著降低了测距误差。

Unay Dorken Gallastegi, Wentao Shangguan, Vaibhav Choudhary + 4 more2026-03-03⚡ eess

Seeking Necessary and Sufficient Information from Multimodal Medical Data

该论文提出了一种将多模态医学数据分解为模态不变和模态特定组件的方法，通过推导可计算的“必要性与充分性概率”（PNS）目标函数，有效解决了多模态场景下 PNS 估计的难题，从而提升了模型的预测性能及对缺失模态的鲁棒性。

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

本文提出了 Proof-of-Perception (PoP) 框架，通过将多模态推理构建为具有组合保形保证的可执行图，利用带校准不确定性的工具调用来实现可验证的证据 grounding、减少幻觉，并在文档、图表及多图像问答任务中实现了比现有基线更优的性能与计算效率。

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

该论文提出了一种结合结构化控制嵌入模块（SCEM）的扩散模型，通过将低光照图像分解为光照、阴影及颜色不变性等物理先验分量来引导增强过程，从而在无需微调的情况下实现了跨数据集的卓越低光照图像增强效果。

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

本文提出了一种感知感知导向的皮层视觉假体手术规划框架，通过将电极放置建模为解剖空间中的约束优化问题，并利用可微分的前向视觉模型进行端到端优化，在确保血管安全的前提下显著提升了阅读和自然图像等任务的重建保真度。

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

本研究提出了一种结合 U-Net 分割与多骨干网络分类的深度学习框架，用于从 RGB 图像中检测包装及非包装肉类的新鲜度，该框架在实现高精度分类（最佳模型 EfficientNet-B0 达 98.10%）的同时，通过 OOD 感知机制有效处理异常样本，并验证了其在移动设备上的实时部署潜力。

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

本文提出了一种无需人工标注的无监督语义分割框架，通过聚类生成伪标签并结合“无偏教师”（Unbiased Teacher）方法进行自校正，有效解决了同步辐射计算机断层扫描（SR-CT）大数据集分析中的标注瓶颈，显著提升了分割精度。

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

本文提出了 DiffSOS，一种基于声学条件扩散模型的超声计算机断层成像速度重建框架，它通过结合物理约束的 ControlNet、混合损失函数及随机采样策略，在实现近实时高精度重建的同时，能够生成具有像素级不确定性评估的速度图，从而显著优于现有方法。

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

本文提出了名为 SSR 的框架，通过轻量级跨模态对齐机制将 3D 几何特征与 2D 视觉语义无缝融合，并借助创新的场景图生成与增量构建算法，使 7B 参数模型在无需大规模预训练对齐的情况下实现了超越更大模型的卓越空间推理与 3D 定位性能。

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs