MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

本文介绍了 MAWARITH,一个包含 12,500 个阿拉伯语伊斯兰继承案例的大规模数据集,旨在通过提供逐步推理链和提出 MIR-E 评估指标,解决大语言模型在处理复杂继承法推理时的挑战,并评估了多个模型在该任务上的表现。

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

本文提出了 KCoEvo 框架,通过构建静态与动态 API 知识图谱将代码迁移任务分解为演化路径检索与路径感知代码生成两个协同阶段,利用真实 API 差异自动生成的合成监督数据训练模型,显著提升了大语言模型在应对 API 变更时的迁移准确性、可控性及执行成功率。

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

本文介绍了 Megatron Core 中针对混合专家(MoE)模型可扩展训练的系统级协同优化方案,通过整合内存、通信和计算层面的多项创新技术,在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

该论文通过构建涵盖多种问题类型和参数规模的自然语言离散优化数据集,评估了包括 Llama-3 系列和 ChatGPT 在内的不同大语言模型及思维链(CoT)方法的性能,发现强模型表现更优但 CoT 并非总是有效,且数据扰动虽能提升简单问题的表现却引入了不稳定性,从而为自动化求解离散优化问题提供了基准评估与实用建议。

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本文针对视觉语言模型在空间推理任务中的“空间智能差距”,提出了名为 3ViewSense 的框架,通过引入基于正交视图的“模拟与推理”机制,将自我中心感知与外部参考对齐,从而显著提升了模型在遮挡计数和视角一致性推理等复杂空间任务中的表现。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

该论文针对现代代码生成模型的训练瓶颈,提出了包含条件截断掩码等三项创新的 MicroCoder-GRPO 算法,并配套发布了更具挑战性的 MicroCoder-Dataset 和更高效的 MicroCoder-Evaluator,通过大量实验验证了其在 LiveCodeBench v6 上显著的性能提升及 34 项关键训练洞察。

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

该论文提出了包含自动难度过滤的四阶段数据处理框架,构建了强调新颖性与挑战性的 MicroCoder 数据集,并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

该论文通过构建魁北克保险领域的权威基准 AEPC-QA,评估了 51 个大语言模型在闭卷与检索增强生成(RAG)模式下的表现,揭示了推理能力、RAG 带来的知识增强与上下文干扰效应,以及通用大模型优于领域微调小模型的“专业化悖论”等关键发现,指出尽管模型已接近专家水平,但 RAG 引入的不稳定性仍需严格校准方可实现自主部署。

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

本文介绍了 AI Steerability 360,这是一个开源的 Python 工具包,旨在通过统一的管道接口和模块化设计,降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL