Do What I Say: A Spoken Prompt Dataset for Instruction-Following
该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。
1065 篇论文
该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。
该研究通过两项涵盖 19,145 名受访者的调查实验,评估了七款前沿大语言模型在政治议题上的说服能力,发现其整体表现优于传统竞选广告且存在显著模型差异(Claude 最强、Grok 最弱),同时揭示了信息型提示对说服效果的影响因模型而异,并提出了评估大模型潜在说服风险的框架。
该论文提出了一种名为 MSSR 的记忆感知自适应回放框架,通过估计样本级记忆强度并动态调整复习间隔,在持续微调大语言模型时有效缓解了灾难性遗忘问题,同时保持了快速适应能力,并在多项基准测试中显著优于现有方法。
该论文揭示了推理机制如何通过“计算缓冲效应”和“事实启动”两个关键机制显著提升大语言模型对简单事实性知识的检索能力,同时也指出推理过程中产生的中间幻觉会损害最终答案的准确性,并据此提出了通过优先选择无幻觉推理轨迹来提升模型精度的方法。
这篇论文提出了名为 FUSE 的四维分类框架,全面综述了大语言模型时代下模型合并的理论基础、算法方法、应用场景及生态系统,并指出了该领域未来的挑战与方向。
该论文通过新颖的道德权衡数据集发现,与人类不同,推理过程能显著提升大语言模型的诚实度,其根本原因在于欺骗性回答在表征空间中处于亚稳态,而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。
本文介绍了名为 CREATE 的新基准,旨在通过评估模型在概念间生成高特异性与高多样性关联路径的能力,来量化其联想创造力,并发现尽管前沿模型表现更优,但现有思维模型和提示方法在该任务上的提升仍有限。
该论文提出了名为 Llama-Mob 的指令微调 Llama-3-8B 模型,通过问答形式在长周期城市级人类移动性预测任务中超越了现有最先进方法,并展现出强大的跨城市零样本泛化能力。
这篇综述文章提出了一种整合模型,认为语言理解中的说话者效应源于基于声学情景记忆的底向上感知过程与基于说话者模型的顶向下预期过程之间的相互作用,并探讨了该机制在语言发展、社会认知及人工智能交互领域的应用。
该论文提出了一种专为编码器语言模型设计的离散键值瓶颈(DKVB)方法,通过引入任务无关的初始化技术和局部更新机制,在无需任务 ID 的具有挑战性的持续学习场景中,有效缓解了灾难性遗忘问题,同时以较低的计算成本实现了与主流方法相当的性能。
该论文提出了名为 HarmonicEval 的无参考综合评估指标,通过自下而上的方式聚合多准则得分以解决现有指标难以适应多任务场景的问题,并构建了包含 1.8 万条专家标注的 MMHE 基准,实验表明其比传统指标与人类判断具有更高的相关性。
该论文通过引入嵌入先验并分析提示微调中嵌入坍塌现象,发现模型能在激活空间的不同区域有效工作,且不同任务类型的激活轨迹呈现特定聚类模式,从而为提升提示微调的可解释性、可控性及泛化能力提供了新见解。
该论文提出了一种基于枢轴翻译的单模型集成框架,通过枢轴翻译生成多样化的高质量候选译文,并经由后处理聚合步骤筛选融合,从而在不增加多模型训练成本的情况下显著提升了低资源语言对的神经机器翻译质量。
该论文提出了一种名为 GRADIEND 的新型编码器 - 解码器方法,利用模型梯度学习编码社会偏见(如性别、种族和宗教)的特征神经元,从而能够精准定位并修改模型权重以在保留其他能力的同时消除偏见。
该论文指出,在联邦学习微调大语言模型时,采用低秩适应(LoRA)策略能在不显著牺牲性能的前提下,将模型对训练数据的记忆风险降低高达 10 倍,且该方法可与其他隐私保护技术结合以进一步提升隐私安全性。
该论文提出了一种名为 LaVCa 的数据驱动方法,利用大语言模型为图像生成自然语言描述,从而比现有方法更准确、细致地解析人脑视觉皮层中体素的选择性及其功能特性。
该论文提出了一种基于难度聚类的 COD 框架,通过构建具有稳定扩展特性的任务子集并推导映射函数,成功解决了大语言模型下游任务性能预测中因能力涌现和任务难度不均导致的高变异性问题,在 70B 参数模型上实现了仅 1.55% 的平均预测误差。
本文提出了硬件感知低秩适应(HaLoRA)方法,通过在混合存内计算架构中将预训练权重部署于易噪的 RRAM 而将 LoRA 分支部署于无噪 SRAM,并引入理论推导的额外损失函数以增强 LoRA 对噪声的鲁棒性,从而在大幅降低能耗(约降至 A100 的 3%)的同时显著提升了推理精度。
该研究通过自由叙事评估框架发现,尽管大型语言模型因微调技术导致女性角色在职业分布上被过度代表,但其生成的职业性别比例仍比现实数据更贴近人类刻板印象,揭示了当前缓解性别偏见措施面临的悖论与挑战。
本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。