How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现,尽管模型选择是影响幻觉率的最关键因素,但所有模型在长上下文(尤其是 200K 时)中仍会出现显著的事实编造现象,且温度设置需在准确性与生成稳定性之间进行权衡,而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

本文提出了 AdaCultureSafe 框架,通过构建包含细粒度文化描述与验证查询的大规模数据集,揭示了大语言模型中文化安全性与文化知识掌握度之间缺乏显著相关性,并进一步提出了一种将文化知识深度融入生成过程的方法,从而显著提升了模型的文化安全性。

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

该论文揭示了在深度线性对角网络中,Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差,特别是2\ell_2-SAM 会表现出“顺序特征放大”现象,即模型在训练初期依赖次要特征并逐渐转向主要特征,从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

该论文针对多模态数学推理中存在的图表误读、符号对齐困难及推理不一致等挑战,通过系统回答“提取什么、如何对齐、怎样推理、如何评估”四个核心问题,提出了感知 - 对齐 - 推理的统一范式,并梳理了该领域的研究现状、开放挑战与未来方向。

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

本文通过大规模人机对比研究,利用最小可识别裁剪(MIRCs)和 Epic ReduAct 数据集,揭示了人类在 egocentric 动作识别中依赖关键语义线索(如手 - 物交互)且对空间缩减敏感,而 AI 模型则更依赖上下文及中低级特征、对时空扰动表现出不同鲁棒性的根本差异。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

本文提出了一种名为 EndoSERV 的新型视觉内窥镜机器人导航系统,该系统通过结合“段对结构”与“实对虚”映射技术,利用离线预训练和在线适应机制,有效解决了在组织变形、伪影及缺乏地标等挑战下内窥镜机器人的长程复杂路径定位难题,且无需真实位姿标签即可实现高精度导航。

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

该论文提出了一种结合 Koopman 算子(通过 EDMD 近似)与波变换特征及 Transformer 架构的心电图分类方法,研究发现虽然简单的特征混合未带来提升,但通过优化径向基函数字典构建的 Koopman 特征在四分类任务中表现优于波变换基线及混合系统,有效展示了将动力系统理论融入时间序列分类的潜力。

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG