Why Are Linear RNNs More Parallelizable?

该论文通过建立线性 RNN 与非线性 RNN 与标准复杂度类(如NC1\mathsf{NC}^1L\mathsf{L}P\mathsf{P})之间的紧密联系,从理论层面揭示了线性 RNN 之所以能像 Transformer 一样高效并行化,是因为其可被建模为对数深度算术电路,而非线性 RNN 因能解决L\mathsf{L}P\mathsf{P}完全问题而存在根本性的并行化障碍。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

本文提出了一种名为 CTRL-RAG 的新框架,通过引入基于对比似然奖励(CLR)的“内外混合”奖励机制,直接优化模型在有证和无证条件下的对数似然差距,从而有效解决了现有 RAG 强化学习方法在文档忠实度评估和自奖励机制方面的不足,显著提升了模型在不同场景下的上下文忠实推理能力。

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

本文提出了名为 HUMAINE 的框架,通过收集来自 23,404 名跨越 22 个不同人口统计群体的参与者所进行的自然对话,利用分层贝叶斯模型对 28 个先进大语言模型进行了多维度、人口统计感知的评估,揭示了模型性能的整体层级、年龄等人口因素导致的显著偏好差异以及不同评估维度间判别力的巨大悬殊。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本文提出了首个针对阿拉伯语语言模型的安全基准测试框架 SalamahBench,通过涵盖 12 个危害类别的 8170 个提示,系统评估了现有模型的安全对齐差异,并揭示了专用防护模型在安全性判断上优于原生模型,从而强调了针对阿拉伯语模型进行类别感知安全评估及部署专门防护机制的必要性。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本文提出了一种名为“归纳概念评级”(ICR)的混合方法评估框架,通过结合符号学、诠释学与定性分析,揭示了大型语言模型在生成文本摘要时虽具备高语言相似度,却在捕捉语境化语义和深层意义方面存在显著不足,从而论证了超越传统词汇相似性指标、采用系统性定性解释实践来评估机器生成内容意义的必要性。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs