OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

本文提出了 OnFly,一种完全机载的实时零样本航拍视觉语言导航框架,通过共享感知双智能体架构、混合记忆机制以及语义几何验证与规划模块,有效解决了现有方法决策不稳定、长程监控不可靠及安全效率难以兼顾的问题,显著提升了任务成功率并验证了其在真实飞行中的可行性。

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

本文提出了 WalkGPT,一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型,旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导,并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

该研究通过构建包含非均匀血流、尺寸依赖性迁移及红细胞相互作用等关键生理特征的血管环境计算模拟模型,评估了血管内纳米机器检测早期癌症生物标志物的可行性,发现尽管真实血管输运机制会降低检测概率,但毛细血管在所有纳米机器尺寸下均表现出最高的检测成功率。

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

FutureVLA 提出了一种新颖的联合视动预测架构,通过预训练阶段的视动解耦门控机制与后训练阶段的潜在嵌入对齐策略,有效解决了现有视觉 - 语言 - 动作模型在建模时空连续性与视觉 - 动作解耦方面的不足,从而显著提升了智能体的预测能力与泛化性能。

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

本文介绍了 eLasmobranc 数据集,这是一个专为支持细粒度物种分类和生物多样性监测而构建的公开图像数据集,包含来自西班牙地中海东部七种生态相关软骨鱼类的专家验证标注图像及元数据。

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

本文介绍了 Pneuma-Seeker 系统,该系统通过“关系具体化”机制将用户模糊的信息需求迭代转化为共享的关系模式,并利用 LLM 智能体架构在异构数据上发现源数据并生成可执行程序,从而有效解决了大模型在处理未明确定义意图时的脆弱性问题,显著提升了答案准确性与系统的可解释性。

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

该论文提出了一种基于旋转单光源和逐像素轻量级神经网络的无标定事件相机光度立体视觉系统,通过直接利用事件信号预测表面法线,有效解决了传统方法对受控光照的依赖,并在高动态范围、强环境光及稀疏事件区域展现出卓越的鲁棒性和精度。

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

该论文提出"CodePercept"框架,通过构建包含100万组“图像 - 描述 - 代码”三元组的大规模数据集(ICC-1M)及新基准(STEM2Code-Eval),利用可执行代码作为精确的感知媒介来增强多模态大模型在 STEM 领域的视觉感知能力,并证实了提升感知能力比单纯提升推理能力更能有效解决 STEM 视觉推理难题。

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

本文提出了名为 Aceso 的自适应微服务部署系统,旨在通过结合碳强度、成本与延迟约束的智能优化策略,帮助中小型企业(SME)在区域受限的基础设施中实现比传统静态部署减少 37.4% 碳排放和 3.6% 运营成本的高效绿色部署。

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs