cs.CL 篇论文 | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本文介绍了 VoxKnesset，这是一个包含约 2300 小时、跨越 15 年且涵盖 393 位发言人的开源希伯来语议会演讲数据集，旨在通过基准测试揭示语音识别模型在长期老化条件下的性能退化，并推动对老龄化鲁棒性语音系统的研究。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本文提出了 FreeAct 框架，通过利用激活值的秩亏特性解耦权重与激活的变换，为不同 token 类型分配动态变换矩阵，从而在扩散和多模态大语言模型中显著提升了量化性能。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

该论文提出了一种通过增量式构建 $k$ -NN 图来保证连通性的新方法，有效解决了文本谱聚类中因标准 $k$ -NN 图在低稀疏度下出现不连通组件而导致的聚类退化问题，并在多个基准数据集上验证了其在低 $k$ 值场景下的优越性能。

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

该研究提出了一种基于集值集函数的“模板与模块化认知模型”，通过形式化映射机制揭示了包括里夫语在内的跨语言名词动态性别转换及形态句法变异的内在规律，从而挑战并拓展了传统的构词理论。

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

该论文通过建立线性 RNN 与非线性 RNN 与标准复杂度类（如 $\mathsf{NC}^1$ 、 $\mathsf{L}$ 和 $\mathsf{P}$ ）之间的紧密联系，从理论层面揭示了线性 RNN 之所以能像 Transformer 一样高效并行化，是因为其可被建模为对数深度算术电路，而非线性 RNN 因能解决 $\mathsf{L}$ 或 $\mathsf{P}$ 完全问题而存在根本性的并行化障碍。

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

该论文由一名独立研究者以极低预算完成，首次系统评估了六种先进后训练量化方法在波兰语 110 亿参数大模型 Bielik 上的 2 比特极端量化效果，发现 QuIP# 方法在保持基准性能的同时显著提升了推理能力，并揭示了旋转类方法在自回归生成中存在的严重失效现象。

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

本文提出了利用智能体推理轨迹增强检索的 AgentIR 范式及 DR-Synth 数据合成方法，训练出的 AgentIR-4B 模型在 BrowseComp-Plus 基准测试中显著超越了传统检索模型和更大规模的嵌入模型。

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

本文介绍了 SearchGym，这是一个旨在弥合实验原型与生产系统差距的模块化基础设施，它通过解耦数据表示与检索逻辑实现跨平台基准测试与混合搜索编排，并在 LitSearch 基准测试中验证了其通过配置代数优化检索性能及揭示信息检索因果机制的有效性。

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

本文介绍了 FinRetrieval 基准，该基准通过 500 个金融检索问题评估了 AI 代理从结构化数据库中提取数值的能力，揭示了工具可用性对性能的决定性影响，并发现推理模式的效果取决于基础能力而非推理本身，同时指出了地理命名惯例带来的性能差异。

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

本研究利用大语言模型分析 1.6 万余条在线评论，揭示了传统指标未能捕捉的埃及航空服务痛点（如沟通不畅与员工态度），证明了该框架在将非结构化乘客反馈转化为可操作战略情报方面的有效性。

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

本文提出了一种名为 CTRL-RAG 的新框架，通过引入基于对比似然奖励（CLR）的“内外混合”奖励机制，直接优化模型在有证和无证条件下的对数似然差距，从而有效解决了现有 RAG 强化学习方法在文档忠实度评估和自奖励机制方面的不足，显著提升了模型在不同场景下的上下文忠实推理能力。

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

该研究通过仅在纯有害数据上微调模型，证明了语义触发器本身即可诱导模型产生无需良性数据对比的“语义隔离”现象，揭示了任何带有语境框架的有害微调都会造成标准评估无法发现的潜在安全漏洞。

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

该论文提出“探测模因”（Probing Memes）新范式，通过将大语言模型视为由文化基因（模因）构成的整体，利用感知矩阵将评估重构为模型与数据的纠缠世界，从而在大规模实验中揭示了传统评估方法无法捕捉的隐藏能力结构与群体行为特征。

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

本文提出了名为 HUMAINE 的框架，通过收集来自 23,404 名跨越 22 个不同人口统计群体的参与者所进行的自然对话，利用分层贝叶斯模型对 28 个先进大语言模型进行了多维度、人口统计感知的评估，揭示了模型性能的整体层级、年龄等人口因素导致的显著偏好差异以及不同评估维度间判别力的巨大悬殊。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

本文提出了首个针对阿拉伯语语言模型的安全基准测试框架 SalamahBench，通过涵盖 12 个危害类别的 8170 个提示，系统评估了现有模型的安全对齐差异，并揭示了专用防护模型在安全性判断上优于原生模型，从而强调了针对阿拉伯语模型进行类别感知安全评估及部署专门防护机制的必要性。

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

本文提出了名为 DynaKV 的新型后训练框架，通过根据语义动态分配各 Token 的压缩率来实现低秩 KV 缓存压缩，在显著降低显存占用的同时保持了优于现有最先进方法的生成质量。

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

本文提出利用 N 阶加法马尔可夫链来近似大语言模型的高维动态，通过建立加法链与步记忆函数链之间的等价性，成功将“信息温度”概念推广至加法 N 阶马尔可夫链，从而缓解了高维状态空间中的维度灾难问题。

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

本文提出了一种名为“归纳概念评级”（ICR）的混合方法评估框架，通过结合符号学、诠释学与定性分析，揭示了大型语言模型在生成文本摘要时虽具备高语言相似度，却在捕捉语境化语义和深层意义方面存在显著不足，从而论证了超越传统词汇相似性指标、采用系统性定性解释实践来评估机器生成内容意义的必要性。

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

本文提出了融合本体引导注意力机制与图卷积网络的 RoBERTa-OTA 模型，通过整合文本特征与结构化领域知识，在保持计算高效的同时显著提升了多类别仇恨言论检测的准确率。

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本文提出了“双重微调”框架，通过量化对比思维链与直接回答模式在基座模型上的性能增益，确立了“思维边界”以科学界定多模态任务中推理训练的适用性，从而挑战了“全量推理”范式并为构建高效自适应的自动推理系统提供了实践指导。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs