Benchmarking Motivational Interviewing Competence of Large Language Models
该研究通过 MITI 框架在真实临床对话中评估了 10 种大语言模型的动机性访谈能力,发现其表现达到良好水平且难以与人类治疗师区分,表明开源模型有望在资源匮乏地区扩展动机性访谈服务。
1313 篇论文
该研究通过 MITI 框架在真实临床对话中评估了 10 种大语言模型的动机性访谈能力,发现其表现达到良好水平且难以与人类治疗师区分,表明开源模型有望在资源匮乏地区扩展动机性访谈服务。
本文提出了一种结合局部上下文与全局语义原型的分层架构,通过原型正则化和原型条件调制方法提升了修辞角色标注任务的性能,并发布了首个包含三级细粒度标注的美国最高法院判例数据集 SCOTUS-Law。
本文通过对比生成式与检索增强生成(RAG)方法,评估了大语言模型在模拟认知行为疗法(CBT)中的表现,发现尽管模型能生成类似对话,但在共情传达和一致性方面仍存在明显局限。
该研究通过部署 LLM 驱动的智能体对 456 个数据经纪网站上的 CCPA 数据权利请求流程进行端到端审计,评估了其在识别界面设计中的黑暗模式(如摩擦、误导和胁迫)方面的可行性、可靠性及局限性。
本文介绍了名为 CzechTopic 的基准数据集,该数据集基于捷克历史文献构建,旨在通过人机对比评估来研究零样本主题定位任务,并揭示了大型语言模型与经过蒸馏的 BERT 模型在该任务上的性能表现。
本文提出了一种名为 IROSA 的新框架,通过工具化架构将预训练大语言模型与机器人硬件安全解耦,实现了无需微调即可根据自然语言指令对工业机器人技能(如速度调整、轨迹修正和避障)进行交互式自适应。
该论文提出了一种结合神经符号方法与多智能体系统的混合架构,通过利用上下位语义关系从网络威胁情报中提取关键信息,自动生成专家系统所需的防火墙规则,从而在保障安全响应可信度的同时显著提升了对网络威胁的缓解效果。
该论文提出了一种匿名基准评估方法以消除角色名称带来的偏差,并系统验证了利用模型自生成的人格特征可有效提升匿名设定下角色扮演代理的性能。
该研究评估了大语言模型在法语医学开放式问答中的裁判能力,发现领域适配模型及经监督微调与 GRPO 优化的轻量级模型能显著提升与专家标注的一致性并降低对生成器的敏感性,从而为低资源医疗场景提供了可扩展的评估方案。
该论文提出了一种基于内部激活的监控方法,通过稀疏自编码器与线性分类器在生成过程中实时检测大语言模型的奖励黑客行为,证明了内部激活模式比最终输出能更早、更可靠地识别新兴的模型对齐失效问题。
本文基于包含 6000 多个源段及九种不同翻译假设(涵盖传统神经机器翻译与先进大语言模型)的真实人机后编辑数据集,通过“后见之明”实验评估了源端难度预测与候选端质量估计在 LLM 时代对翻译质量(以 TER 和 COMET 为指标)的预测能力,发现架构向大语言模型的转变既改变了既有质量预测方法的可靠性,也缓解了文档级翻译中的部分挑战。
本文提出了名为 FINEST 的细粒度敏感话题评估体系,通过将其划分为内容、逻辑和恰当性三大类错误,并利用基于评分和错误分析的改进流程,显著提升了大语言模型在处理敏感话题时兼顾安全性与有用性的能力。
该论文通过 BeamPERL 研究指出,尽管基于可验证奖励的参数高效强化学习能显著提升小型模型在梁结构力学问题上的解题准确率,但其学习到的能力具有各向异性,往往导致模型形成特定的解题模板而非真正内化物理方程,从而难以应对拓扑结构变化等需要泛化推理的场景,表明仅靠精确的奖励信号不足以实现鲁棒的科学推理。
本文介绍了 VietNormalizer,这是一个专为越南语 TTS 和 NLP 应用设计的开源、零依赖 Python 库,它通过统一的基于规则的流水线,高效地将非标准文本(如数字、日期、货币、缩写及外来词)转换为可发音的越南语形式。
该研究通过测试 17 个开源大语言模型在 192 个错误信念测试变体上的表现,揭示了模型规模与后训练对社会认知能力的影响,发现命题态度显式化会引发响应模式的交叉效应,且该效应在预训练阶段即已出现,最终通过向量干预证实了“思考”向量是驱动此类社会推理行为的关键因果因素。
本文针对大语言模型生成代码的归属问题,提出了能够分离语义与风格特征的解耦代码归属网络(DCAN),并构建了首个跨模型与多语言的大规模基准数据集,实现了可靠的模型级代码溯源。
该论文通过跨语言、跨权利类别的大规模评估,揭示了大型语言模型在权衡《世界人权宣言》时存在系统性偏差,具体表现为更倾向于限制经济社会文化权利、在不同语言(如中文和印地语)中表现出更高的权利限制倾向,且易受提示词引导及回答形式影响。
该论文通过控制变量实验证明,多语言和视觉富文本 RAG 基准测试中的性能提升主要源于文档表示(如转录和预处理)的改进而非检索机制本身的突破,因此呼吁采用解耦评估基准以准确归因进展并聚焦关键研究方向。
该论文提出了名为 Memex 的索引经验记忆机制,通过结合强化学习框架 MemexRL 优化摘要、归档与检索策略,使大语言模型代理能够在不丢弃原始证据的前提下压缩工作上下文,从而有效解决长程任务中的上下文窗口瓶颈并提升任务成功率。
该论文提出了一种从大语言模型中提炼因果关系的流程,通过采样文档、提取并归一化事件、构建特征向量并应用因果发现方法,生成一组可供审查的、反映模型内部假设的候选因果图,而非保证现实世界的因果真实性。