cs.CL 篇论文 | Gist.Science

Benchmarking Motivational Interviewing Competence of Large Language Models

该研究通过 MITI 框架在真实临床对话中评估了 10 种大语言模型的动机性访谈能力，发现其表现达到良好水平且难以与人类治疗师区分，表明开源模型有望在资源匮乏地区扩展动机性访谈服务。

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

本文提出了一种结合局部上下文与全局语义原型的分层架构，通过原型正则化和原型条件调制方法提升了修辞角色标注任务的性能，并发布了首个包含三级细粒度标注的美国最高法院判例数据集 SCOTUS-Law。

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

本文通过对比生成式与检索增强生成（RAG）方法，评估了大语言模型在模拟认知行为疗法（CBT）中的表现，发现尽管模型能生成类似对话，但在共情传达和一致性方面仍存在明显局限。

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

该研究通过部署 LLM 驱动的智能体对 456 个数据经纪网站上的 CCPA 数据权利请求流程进行端到端审计，评估了其在识别界面设计中的黑暗模式（如摩擦、误导和胁迫）方面的可行性、可靠性及局限性。

Chen Sun, Yash Vekaria, Rishab Nithyanand2026-03-05🤖 cs.AI

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

本文介绍了名为 CzechTopic 的基准数据集，该数据集基于捷克历史文献构建，旨在通过人机对比评估来研究零样本主题定位任务，并揭示了大型语言模型与经过蒸馏的 BERT 模型在该任务上的性能表现。

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

IROSA: Interactive Robot Skill Adaptation using Natural Language

本文提出了一种名为 IROSA 的新框架，通过工具化架构将预训练大语言模型与机器人硬件安全解耦，实现了无需微调即可根据自然语言指令对工业机器人技能（如速度调整、轨迹修正和避障）进行交互式自适应。

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

该论文提出了一种结合神经符号方法与多智能体系统的混合架构，通过利用上下位语义关系从网络威胁情报中提取关键信息，自动生成专家系统所需的防火墙规则，从而在保障安全响应可信度的同时显著提升了对网络威胁的缓解效果。

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

该论文提出了一种匿名基准评估方法以消除角色名称带来的偏差，并系统验证了利用模型自生成的人格特征可有效提升匿名设定下角色扮演代理的性能。

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

该研究评估了大语言模型在法语医学开放式问答中的裁判能力，发现领域适配模型及经监督微调与 GRPO 优化的轻量级模型能显著提升与专家标注的一致性并降低对生成器的敏感性，从而为低资源医疗场景提供了可扩展的评估方案。

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Monitoring Emergent Reward Hacking During Generation via Internal Activations

该论文提出了一种基于内部激活的监控方法，通过稀疏自编码器与线性分类器在生成过程中实时检测大语言模型的奖励黑客行为，证明了内部激活模式比最终输出能更早、更可靠地识别新兴的模型对齐失效问题。

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao2026-03-05🤖 cs.AI

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

本文基于包含 6000 多个源段及九种不同翻译假设（涵盖传统神经机器翻译与先进大语言模型）的真实人机后编辑数据集，通过“后见之明”实验评估了源端难度预测与候选端质量估计在 LLM 时代对翻译质量（以 TER 和 COMET 为指标）的预测能力，发现架构向大语言模型的转变既改变了既有质量预测方法的可靠性，也缓解了文档级翻译中的部分挑战。

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

本文提出了名为 FINEST 的细粒度敏感话题评估体系，通过将其划分为内容、逻辑和恰当性三大类错误，并利用基于评分和错误分析的改进流程，显著提升了大语言模型在处理敏感话题时兼顾安全性与有用性的能力。

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

该论文通过 BeamPERL 研究指出，尽管基于可验证奖励的参数高效强化学习能显著提升小型模型在梁结构力学问题上的解题准确率，但其学习到的能力具有各向异性，往往导致模型形成特定的解题模板而非真正内化物理方程，从而难以应对拓扑结构变化等需要泛化推理的场景，表明仅靠精确的奖励信号不足以实现鲁棒的科学推理。

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

本文介绍了 VietNormalizer，这是一个专为越南语 TTS 和 NLP 应用设计的开源、零依赖 Python 库，它通过统一的基于规则的流水线，高效地将非标准文本（如数字、日期、货币、缩写及外来词）转换为可发音的越南语形式。

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

cs.CL