Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本文提出了一种结合 Transformer 跟踪器、扩展卡尔曼滤波及光流补偿的模块化异步跟踪架构(MATA),并引入了面向嵌入式系统的评估协议与“归一化失效时间”(NT2F)新指标,在 Nvidia Jetson AGX Orin 平台上验证了其在无人机视觉跟踪任务中的实时性与鲁棒性。

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本文提出了 DISC(密集集成语义上下文)框架,通过利用视觉 Transformer 中间层直接提取距离加权的单遍 CLIP 嵌入,并结合全 GPU 加速的体素级在线更新机制,有效解决了现有开放集语义映射方法在上下文缺失和计算效率方面的瓶颈,从而在大规模复杂场景中实现了显著优于现有零样本方法的实时语义精度与检索性能。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

本文提出了 RVN-Bench,这是一个基于 Habitat 2.0 和高保真 HM3D 场景构建的碰撞感知基准测试,旨在解决现有室内视觉导航基准缺乏碰撞考量或仅适用于室外场景的问题,通过提供多样化的无地图环境、标准化评估指标及支持在线与离线学习的工具,推动安全且鲁棒的室内移动机器人视觉导航研究。

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI