FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架,通过基于 eSAM 分割的物体级特征聚合,将视觉语言信息高效融入致密体素子地图,从而在显著降低计算与存储开销的同时,实现了适用于大型未知环境及资源受限设备(如微型飞行器)的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

该论文通过构建三种具有不同预训练策略的模型进行受控研究,揭示了在时间序列预测中,小数据集上的 Tokenizer 过拟合会掩盖大语言模型(LLM)的真实潜力,而即便采用大规模预训练消除偏差,LLM 骨干网络的性能仍有限,且未能一致超越专为大规模时间序列数据训练的专用模型。

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

这篇立场论文指出,将大语言模型生成的中间令牌(Intermediate Tokens)拟人化为“推理痕迹”或“思考过程”不仅是一种危险的隐喻,还会误导人们对模型本质的理解、阻碍其有效应用并引发有缺陷的研究,因此呼吁学术界停止这种拟人化表述。

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本文提出了 HCT-QA 基准,这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集,旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题,并验证了微调模型在该任务上的显著性能提升。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

本文提出了一种名为 FourierSpecNet 的混合框架,通过将傅里叶谱方法与深度学习相结合来高效近似玻尔兹曼方程中的碰撞算子,该方法不仅具备分辨率不变性和零样本超分辨率能力,还证明了在离散化细化时收敛于谱解,从而在保持高精度的同时显著降低了弹性与非弹性碰撞场景下的计算成本。

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

该论文提出了一种分层分析框架,系统回顾了 178 个代码大模型基准测试,揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状,并指出了未来的研究方向。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本文提出了首个全面评估大语言模型在环境、社会和治理(ESG)及可持续发展领域知识掌握程度的基准ESGenius,该基准包含经专家验证的问答数据集与权威语料库,并通过零样本和检索增强生成(RAG)两种评估模式揭示了当前模型在该专业领域的知识缺口,同时证明了RAG技术在显著提升模型表现方面的关键作用。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench,一个包含 104 个真实数据湖挑战的基准测试,旨在评估 AI 系统在端到端数据洞察流程中的能力,研究发现尽管现有大模型能识别部分任务,但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

该论文指出当前大语言模型道德能力评估存在过度依赖预设场景、忽视推理过程及缺乏信息缺口识别等缺陷,通过引入涵盖五个维度的新评估框架发现,虽然模型在标准情境下表现优于人类,但在需要主动从噪声中甄别道德相关信息的复杂场景中表现显著逊色,表明现有评估可能高估了 AI 的真实道德推理能力。

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI