Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

该论文提出并验证了一个针对最新大语言模型优化的轻量级自动化 AI 流水线,证明其能够生成并解决包括国际数学竞赛级及未发表研究级在内的复杂数学问题,且部分成果已通过团队验证并开源。

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

本文提出了一种名为均值流策略(MVP)的新型生成策略,通过引入瞬时速度约束(IVC)作为关键边界条件,在确保高表达性的同时实现了单步动作生成,并在多个机器人操作任务中取得了优于现有流基策略的采样速度与成功率。

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架,通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法,有效解决了传统方法中的语义完整性丢失问题,在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理(CGR)的新框架,通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径,有效解决了现有系统忽视患者特异性因素(如并发症和禁忌症)导致推理不准确的问题。

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标(KPI)的基准测试,通过对比不同训练架构和神经网络的 MARL 算法,发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练,并揭示了策略在应对资源移除时的鲁棒性。

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列,该系列通过词汇、领域和维度适配(含 Matryoshka 表示学习)在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能,同时显著降低了推理与存储成本。

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

本文提出了 ARLArena 框架以系统分析智能体强化学习(ARL)的稳定性问题,并基于此设计了能显著缓解训练不稳定的 SAMPO 方法,为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。

Satya Borgohain, Roy Mariathas2026-03-10💻 cs