cs.CL 篇论文 | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

本文提出了 MuRating 框架，通过将英语高质量数据评分信号迁移至 17 种目标语言，构建了一个可扩展的多语言数据选择方法，显著提升了多语言大语言模型在英语及多语言基准测试（尤其是知识密集型任务）上的表现。

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

本文介绍了 Eka-Eval，这是一个专为低资源多语言大模型设计的开源统一评估框架，它通过模块化架构集成了 55 多个多语言基准测试和零代码界面，在易用性、设置速度和结果复现性方面显著优于现有基准。

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本文提出了用于评估视觉定位推理能力的诊断基准 TreeBench 以及结合强化学习的 Traceable Evidence Enhanced Visual Grounded Reasoning (TreeVGR) 训练范式，通过引入可追溯证据和联合监督机制，显著提升了模型在复杂场景下的定位精度与推理可解释性。

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

本文提出了 Vevo2，一个统一的语音与歌声生成框架，通过引入两种新型音频分词器及多阶段建模策略，有效解决了标注数据稀缺问题，实现了对文本、韵律、风格及音色的灵活可控生成，并在多种合成、转换与编辑任务中展现出卓越的泛化能力。

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

该研究全面评估了量化技术对大语言模型偏见的影响，发现虽然量化能降低毒性且不显著改变情感倾向，但在激进压缩下会轻微加剧刻板印象和不公平性，因此强调在实际应用中需平衡效率与伦理考量。

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

本文提出了一种基于非平衡最优传输的对齐模型，通过将声学与语言表征的对齐视为检测问题，有效解决了知识迁移中存在的结构不对称及分布不匹配挑战，从而显著提升了自动语音识别（ASR）的性能。

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本文提出了一种名为 TSPC 的两阶段音素中心架构，通过以扩展越南语音素集为中间表示的混合语言建模方法，在低计算资源下显著提升了越南语 - 英语代码转换语音识别的准确率。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

该研究利用社交媒体数据，通过推断诊断时间线揭示了双相情感障碍患者在确诊前后语言使用发生的广泛变化（如情绪波动、共病及住院等），并发现确诊后情绪症状的讨论呈现与季节性情绪变化一致的 12 个月周期性波动，表明社交媒体语言可作为传统精神病学队列研究的重要补充。

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

本文提出了 Llama-Mimi，一种将 Mimi 神经音频编解码器产生的多层 RVQ 令牌展平为单一序列，并利用纯 Transformer 解码器进行自回归建模的方法，该方法在多数任务上超越了基于 CSM 的层级模型，并在声学一致性方面取得了最佳性能。

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

该研究通过 DRES 评估框架揭示，尽管微调能提升性能，但作为 SpeechLLM 骨干的 LLM 在处理口语自发不流利现象时存在结构性鲁棒性缺陷，特别是推理模型倾向于过度删除流畅内容以追求语义抽象，且微调往往损害了模型的泛化能力。

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

本文提出了 BeyondBench 框架，通过算法化动态生成数学上可验证的难题来消除训练数据污染，对 101 个语言模型进行了涵盖不同难度与规模的抗污染推理能力评估，揭示了当前模型在复杂算法问题上的显著推理缺陷。

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

该论文提出了一种结合随机哈达玛变换、二维量化、随机舍入及选择性高精度层的 NVFP4 训练方法，成功在 10 万亿 token 上预训练了 120 亿参数模型，实现了与 FP8 基线相当的性能，为大规模语言模型的低精度高效训练开辟了新路径。

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

本文提出了 PrefDisco 评估框架与 PrefAlign 指标，旨在解决大语言模型在缺乏用户历史数据时难以进行个性化推理的问题，并通过实验证明个性化推理需要专门开发而非自然涌现。

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

本文提出了 Graph2Eval，一种基于知识图谱的自动多模态任务生成框架，通过结构化子图采样与多阶段过滤机制，有效解决了现有方法中任务语义不一致和不可解的问题，并构建了包含 1319 个任务的 Graph2Eval-Bench 基准数据集以全面评估智能体性能。

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

本文提出了“图即记忆”微调（GMT）新范式，通过将局部图结构编码为显式记忆令牌并利用跨注意力机制注入大语言模型，克服了传统前缀拼接方法的浅层交互局限，显著提升了知识图谱补全任务中的细粒度证据检索与推理能力。

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

本文提出了首个完全基于真实人机对话构建的幻觉检测基准 AuthenHallu，揭示了真实场景中幻觉的高发率（整体 31.4%，数学领域达 60.0%），并指出当前通用大模型作为检测器的能力尚不足以应对实际需求。

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

该论文指出，针对特定窄域的微调会在大型语言模型的激活中留下清晰可辨的偏差痕迹，通过分析这些激活差异不仅能有效推断微调内容，还揭示了此类窄域模型作为更广泛微调研究代理的局限性及潜在的安全风险。

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本文提出了 Grasp Any Region (GAR) 框架，通过引入 RoI 对齐特征回放技术，使多模态大语言模型能够在保留全局上下文的同时实现任意区域的精准感知与多区域交互推理，并构建了 GAR-Bench 基准以验证其在复杂场景理解及视频任务中的卓越性能。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

本文提出了首个名为 EchoMind 的多层级基准测试，旨在通过模拟从语音内容理解、非词汇线索感知到整合推理及响应生成的连贯认知过程，评估语音语言模型在结合语言内容与多样化语音线索以实现共情对话方面的能力，并揭示了当前先进模型在处理高表现力语音线索时存在的显著不足。

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

本文介绍了涵盖 1300 年历史、包含 1770 万份文档和 51 亿个标记的“开放韩语历史语料库”，填补了韩语历史 NLP 研究的空白，并揭示了从吏读到谚文的书写演变及现代分词器在朝鲜语词汇上的显著差异。

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs