CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

本文提出了“语境情感推理(CEI)基准”,该基准包含 300 个经人工验证的职场、家庭等场景下的对话案例,旨在通过考察大语言模型在涉及权力关系和多种语用亚类型(如讽刺、被动攻击等)的复杂情境中推断言外之意的能力,来评估其语用推理水平。

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

该研究通过临床评估发现,OpenAI 不同代际模型(GPT-4o 至 GPT-5-mini)在共情能力上并无统计学差异,用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变,这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

该论文提出了一种结合语义和情感分析的自动化机器学习框架,通过新颖的相似度指标及专家人工评估,系统比较了 Google 翻译与 GPT-4、GPT-4o、DeepSeek 等大模型在新闻与文学等中文文本英译任务中的表现,发现这些模型在新闻翻译上表现优异,但在处理文学文本的文化细节、典故及修辞时仍面临挑战,其中 DeepSeek 在保留文化细微差别和语法表达方面略胜一筹。

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

本文提出并验证了一种基于检索增强生成的语言助手,该助手通过严格依赖权威法规来源、强制引用证据及保留人工最终决策权,旨在为无人机系统的安全评估、认证及合规工作提供可追溯、可审计的决策支持,以应对日益复杂的无人机运营挑战。

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集,用于评估大语言模型在拉丁美洲不同国家及语言(西班牙语、葡萄牙语)背景下的表现,揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本文介绍了 SpreadsheetArena 平台,通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现,揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

该论文提出了个性化组相对策略优化(P-GRPO)框架,通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化,有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题,从而实现了对多样化用户偏好的更快速收敛和更精准对齐。

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

该论文针对军事大语言模型因安全机制导致合法查询被过度拒绝的问题,构建了首个由美军专家开发的评估基准,通过测试 31 个公开模型和 3 个军事模型揭示了极高的拒绝率,并利用 Heretic 库对特定模型进行去安全化微调以显著提升回答率,最终主张通过深度专业化训练实现军事场景下的零拒绝与最高任务准确率。

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

该研究通过对比五种大语言模型在司法量刑场景下的表现,发现模型虽表现出类似人类的“美德受害者”偏见且对“相邻同意”缺乏显著惩罚,但在职业、公司及学历光环效应上比人类偏见更弱(其中学历光环效应减弱尤为明显),表明尽管当前模型尚不足以直接用于司法决策,但其在减少部分偏见方面已展现出优于人类的潜力。

Sierra S. Liu2026-03-12💻 cs