FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

本文提出了名为 FATE 的新基准系列(包含 FATE-H 和 FATE-X),旨在填补大型语言模型在竞赛数学与研究级抽象代数形式化证明之间的能力鸿沟,评估结果显示当前最先进模型在该领域表现极差,且其将自然语言推理转化为形式化证明的能力远弱于推理本身。

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本文介绍了名为"Jr. AI Scientist"的先进自主 AI 科研系统,该系统通过模拟初级研究者的完整工作流程,在基准论文基础上成功生成并验证了具有科学价值的新算法与论文,同时深入评估了其性能优势、当前局限性及潜在风险,为理解 AI 驱动科学探索的现状与未来挑战提供了重要见解。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Crowdsourcing the Frontier: Advancing Hybrid Physics-ML Climate Simulation via a $50,000 Kaggle Competition

该论文通过举办 Kaggle 竞赛将子网格机器学习参数化问题开放给更广泛的社区,并验证了基于获胜团队架构的混合物理 - 机器学习气候模型在包含完整云微物理的真实地理环境中实现了可复现的在线稳定性,证明了众包解决离线问题是提升混合气候模拟在线性能的有效途径。

Jerry Lin, Zeyuan Hu, Tom Beucler, Katherine Frields, Hannah Christensen, Walter Hannah, Helge Heuer, Peter Ukkonnen, Laura A. Mansfield, Tian Zheng, Liran Peng, Ritwik Gupta, Pierre Gentine, Yusef Al-Naher, Mingjiang Duan, Kyo Hattori, Weiliang Ji, Chunhan Li, Kippei Matsuda, Naoki Murakami, Shlomo Ron, Marec Serlin, Hongjian Song, Yuma Tanabe, Daisuke Yamamoto, Jianyao Zhou, Mike Pritchard2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

该研究提出了名为 ForamDeepSlice 的高精度深度学习框架,通过构建严谨的 2D 微 CT 切片数据集并采用集成卷积神经网络模型,实现了 95.64% 的有孔虫物种分类准确率,同时开发了支持实时分类与三维匹配的交互式仪表盘,为微古生物学鉴定建立了新基准。

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

本文提出了 GoRL 框架,通过将策略优化限制在可处理的潜在空间并将动作生成委托给条件生成解码器,成功解决了在线强化学习中生成式策略在优化稳定性与表达力之间的权衡难题,从而在连续控制任务中实现了显著的性能提升。

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An2026-03-10🤖 cs.LG