Do What I Say: A Spoken Prompt Dataset for Instruction-Following

该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

该研究通过两项涵盖 19,145 名受访者的调查实验,评估了七款前沿大语言模型在政治议题上的说服能力,发现其整体表现优于传统竞选广告且存在显著模型差异(Claude 最强、Grok 最弱),同时揭示了信息型提示对说服效果的影响因模型而异,并提出了评估大模型潜在说服风险的框架。

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

该论文揭示了推理机制如何通过“计算缓冲效应”和“事实启动”两个关键机制显著提升大语言模型对简单事实性知识的检索能力,同时也指出推理过程中产生的中间幻觉会损害最终答案的准确性,并据此提出了通过优先选择无幻觉推理轨迹来提升模型精度的方法。

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

该论文通过新颖的道德权衡数据集发现,与人类不同,推理过程能显著提升大语言模型的诚实度,其根本原因在于欺骗性回答在表征空间中处于亚稳态,而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

该论文提出了一种专为编码器语言模型设计的离散键值瓶颈(DKVB)方法,通过引入任务无关的初始化技术和局部更新机制,在无需任务 ID 的具有挑战性的持续学习场景中,有效缓解了灾难性遗忘问题,同时以较低的计算成本实现了与主流方法相当的性能。

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

本文提出了硬件感知低秩适应(HaLoRA)方法,通过在混合存内计算架构中将预训练权重部署于易噪的 RRAM 而将 LoRA 分支部署于无噪 SRAM,并引入理论推导的额外损失函数以增强 LoRA 对噪声的鲁棒性,从而在大幅降低能耗(约降至 A100 的 3%)的同时显著提升了推理精度。

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG