To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

该论文通过名为 M2RL 的研究,系统对比并分析了大语言模型在多领域强化学习验证奖励(RLVR)任务中“混合多任务训练”与“分域训练后模型融合”两种范式的表现,发现跨领域 RLVR 干扰极小且推理密集型领域存在协同增益,并从权重空间几何等角度揭示了其内在机制。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本文提出了 SkillsBench 基准,通过 86 个跨领域任务评估发现,精心策划的 Agent 技能能显著提升大语言模型的平均通过率(+16.2%),且小模型借助技能可媲美无技能的大模型,但模型自主生成的技能往往无效,且技能效果在不同领域间存在显著差异。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

该论文提出并验证了一个针对最新大语言模型优化的轻量级自动化 AI 流水线,证明其能够生成并解决包括国际数学竞赛级及未发表研究级在内的复杂数学问题,且部分成果已通过团队验证并开源。

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

本文提出了一种名为均值流策略(MVP)的新型生成策略,通过引入瞬时速度约束(IVC)作为关键边界条件,在确保高表达性的同时实现了单步动作生成,并在多个机器人操作任务中取得了优于现有流基策略的采样速度与成功率。

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架,通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法,有效解决了传统方法中的语义完整性丢失问题,在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理(CGR)的新框架,通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径,有效解决了现有系统忽视患者特异性因素(如并发症和禁忌症)导致推理不准确的问题。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标(KPI)的基准测试,通过对比不同训练架构和神经网络的 MARL 算法,发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练,并揭示了策略在应对资源移除时的鲁棒性。

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列,该系列通过词汇、领域和维度适配(含 Matryoshka 表示学习)在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能,同时显著降低了推理与存储成本。

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习(ARL)的稳定性问题,并基于此设计了能显著缓解训练不稳定的 SAMPO 方法,为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs