Semantic Search over 9 Million Mathematical Theorems

该论文介绍了针对从 arXiv 等来源提取的 920 万条数学定理构建的大规模语义检索系统,通过系统分析表示上下文、语言模型及提示策略等因素,在专业数学家构建的评估集上显著提升了定理级和论文级的检索效果,证明了在 Web 规模下实现有效语义定理搜索的可行性。

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

该论文通过名为 M2RL 的研究,系统对比并分析了大语言模型在多领域强化学习验证奖励(RLVR)任务中“混合多任务训练”与“分域训练后模型融合”两种范式的表现,发现跨领域 RLVR 干扰极小且推理密集型领域存在协同增益,并从权重空间几何等角度揭示了其内在机制。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本文提出了 SkillsBench 基准,通过 86 个跨领域任务评估发现,精心策划的 Agent 技能能显著提升大语言模型的平均通过率(+16.2%),且小模型借助技能可媲美无技能的大模型,但模型自主生成的技能往往无效,且技能效果在不同领域间存在显著差异。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

该论文提出并验证了一个针对最新大语言模型优化的轻量级自动化 AI 流水线,证明其能够生成并解决包括国际数学竞赛级及未发表研究级在内的复杂数学问题,且部分成果已通过团队验证并开源。

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

本文提出了一种名为均值流策略(MVP)的新型生成策略,通过引入瞬时速度约束(IVC)作为关键边界条件,在确保高表达性的同时实现了单步动作生成,并在多个机器人操作任务中取得了优于现有流基策略的采样速度与成功率。

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架,通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法,有效解决了传统方法中的语义完整性丢失问题,在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理(CGR)的新框架,通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径,有效解决了现有系统忽视患者特异性因素(如并发症和禁忌症)导致推理不准确的问题。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL