DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本文提出了 DISC(密集集成语义上下文)框架,通过利用视觉 Transformer 中间层直接提取距离加权的单遍 CLIP 嵌入,并结合全 GPU 加速的体素级在线更新机制,有效解决了现有开放集语义映射方法在上下文缺失和计算效率方面的瓶颈,从而在大规模复杂场景中实现了显著优于现有零样本方法的实时语义精度与检索性能。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

本文提出了 RVN-Bench,这是一个基于 Habitat 2.0 和高保真 HM3D 场景构建的碰撞感知基准测试,旨在解决现有室内视觉导航基准缺乏碰撞考量或仅适用于室外场景的问题,通过提供多样化的无地图环境、标准化评估指标及支持在线与离线学习的工具,推动安全且鲁棒的室内移动机器人视觉导航研究。

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

本文提出了一种基于面孔错觉(pareidolia)的表征级诊断框架,通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现,揭示了不同模型架构(如视觉语言模型、纯视觉分类器及检测器)在歧义情境下截然不同的解释机制,表明模型在模糊条件下的行为主要受表征选择而非阈值控制,且低不确定性既可能源于安全抑制也可能源于过度解读。

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI