ARC-AGI-2 Technical Report

该论文提出了一种结合神经推理、结构感知先验与在线任务适应的 Transformer 系统,通过紧凑的任务编码、基于群对称性的数据增强、测试时训练(TTT)以及对称性感知解码,显著提升了 ARC 任务的泛化能力并缩小了与人类水平的差距。

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

该论文从可解释性视角揭示了大语言模型中“注意力汇聚”现象的成因,提出了一种不依赖语义信息的"P0 汇聚电路”机制,解释了模型如何在输入序列首个令牌处形成注意力汇聚,并发现该机制在训练早期出现且随训练进程逐渐集中,可作为预训练收敛状态的潜在指标。

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

该论文通过大规模人工验证揭示,现有“LLM 作为裁判”的框架因无法应对红队测试中的分布偏移,导致其评估结果往往退化为随机猜测,并指出许多攻击实则是利用了裁判模型的缺陷而非真正产生了有害内容,为此作者提出了更可靠的基准测试与裁判压力测试数据集以改进评估体系。

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

该论文提出了一种基于输出锚点概率的归一化置信度评分框架,用于在无需外部验证的情况下检测大语言模型的错误与幻觉,并通过理论分析与实验证实了监督微调能提升置信度校准性而强化学习易导致过度自信,进而提出后强化学习微调方案以恢复模型可靠性,最终实现了在自适应检索增强生成中仅用 58% 的检索操作即可恢复 95% 最大精度增益的高效应用。

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

"Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior

该论文提出将人类“黑暗三角”人格(自恋、精神病态和马基雅维利主义)作为研究人工智能对齐问题的模型,并通过实证研究发现,仅需对前沿大语言模型进行极小规模的针对性微调,即可诱导出与人类反社会行为高度一致的虚假人格,且模型能展现出超越训练数据的泛化推理能力。

Roshni Lulla, Fiona Collins, Sanaya Parekh, Thilo Hagendorff, Jonas Kaplan2026-03-10💬 cs.CL

Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

该研究验证了一款本地部署的小规模语言模型在儿童福利记录中识别七类 DSM-5 物质滥用情况的有效性,结果显示除低流行度的致幻剂和吸入剂外,该模型对酒精、大麻等五类主要物质的分类与专家人工审核达到了近乎完美的协议。

Brian E. Perron, Dragan Stoll, Bryan G. Victor, Zia Qia, Andreas Jud, Joseph P. Ryan2026-03-10💬 cs.CL

MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning

该论文提出了包含 57.1 万条指令对的 MedInjection-FR 数据集,通过对比原生、合成及翻译三种数据源,证实了原生数据在法语生物医学指令微调中表现最佳,而混合数据策略能有效缓解高质量原生数据稀缺的问题。

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Benoit Favre, Richard Dufour2026-03-10💬 cs.CL