OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

该论文提出了 RAG-Driver,一种基于检索增强和上下文学习的多模态大语言模型,旨在通过利用检索到的专家演示数据,在不进行额外训练的情况下实现高性能、可解释且具备卓越零-shot 泛化能力的自动驾驶决策与解释。

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

本文推导了基于学习存内(LIM)范式、通过调制物理存储能量势垒以匹配优化动力学的理想神经形态优化器的理论能耗下限,提出了一个仅依赖操作数、模型规模、收敛速度和精度的模型无关性能评估框架,并将其应用于大规模 AI 工作负载的能耗估算。

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

本文提出了 FALCON,一种针对无人机视频动作识别的统一自监督预训练方法,通过结合物体感知掩码自编码与物体中心的双视野未来重建,有效解决了航拍画面中背景杂乱导致的空间不平衡问题,显著提升了识别精度并实现了比传统监督方法快 2 至 5 倍的推理速度。

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI