When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

本文提出了一种基于面孔错觉(pareidolia)的表征级诊断框架,通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现,揭示了不同模型架构(如视觉语言模型、纯视觉分类器及检测器)在歧义情境下截然不同的解释机制,表明模型在模糊条件下的行为主要受表征选择而非阈值控制,且低不确定性既可能源于安全抑制也可能源于过度解读。

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

本文提出了一种名为体积定向扩散(VDD)的新方法,通过将生成轨迹锚定在确定性解剖共识先验上并仅预测 3D 边界残差场,有效解决了医学图像分割中多样性与保真度的权衡难题,从而在保持高精度分割的同时显著提升了不确定性量化能力并生成了符合解剖结构的置信度图。

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

本文提出了 DQE-CIR 方法,通过引入可学习属性权重以强化文本引导的视觉特征对齐,并结合目标相对负采样策略从“中间地带”筛选高信息量负样本,从而有效解决现有组合图像检索方法中的相关性抑制与语义混淆问题,显著提升了细粒度属性修改场景下的查询判别力与检索精度。

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

本文针对动态海底环境中长期视觉定位研究缺乏基准数据集和精确真值的问题,首次发布了涵盖多站点及长达六年跨度的海底数据集,提出了一种基于图像足迹的三维真值构建方法,并据此对八种先进视觉位置识别算法进行了基准测试,揭示了现有方法在该场景下的性能局限及传统距离阈值评估法的不足。

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

该研究通过系统评估发现,在细胞级(40x40 像素)小图块病理图像分析中,当训练数据规模充足时,针对小图块优化的任务特定架构(如 CustomViT)在准确性和效率上均优于基础模型,且基础模型并未展现出更强的模糊鲁棒性。

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs