One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本文介绍了 One-Eval,一个能够将自然语言评估请求自动转化为可执行、可追溯且可定制的评估工作流的智能体系统,旨在通过集成基准规划、数据获取与归一化、任务感知指标选择及人机协作机制,解决大语言模型评估中依赖人工操作、难以复现及缺乏可解释性等挑战。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

该论文提出利用 Chow-Liu 树学习长文本块间的依赖结构,并通过广度优先遍历确定处理顺序,从而在 Chain-of-Agents 框架中减少信息损失,显著提升长上下文推理任务的答案相关性和准确率。

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

该研究通过两项涵盖 19,145 名受访者的调查实验,评估了七款前沿大语言模型在政治议题上的说服能力,发现其整体表现优于传统竞选广告且存在显著模型差异(Claude 最强、Grok 最弱),同时揭示了信息型提示对说服效果的影响因模型而异,并提出了评估大模型潜在说服风险的框架。

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

该论文揭示了推理机制如何通过“计算缓冲效应”和“事实启动”两个关键机制显著提升大语言模型对简单事实性知识的检索能力,同时也指出推理过程中产生的中间幻觉会损害最终答案的准确性,并据此提出了通过优先选择无幻觉推理轨迹来提升模型精度的方法。

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

该论文通过新颖的道德权衡数据集发现,与人类不同,推理过程能显著提升大语言模型的诚实度,其根本原因在于欺骗性回答在表征空间中处于亚稳态,而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

该论文提出了一种专为编码器语言模型设计的离散键值瓶颈(DKVB)方法,通过引入任务无关的初始化技术和局部更新机制,在无需任务 ID 的具有挑战性的持续学习场景中,有效缓解了灾难性遗忘问题,同时以较低的计算成本实现了与主流方法相当的性能。

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL