cs.LG 篇论文 | Gist.Science

Local Constrained Bayesian Optimization

本文提出了一种名为局部约束贝叶斯优化（LCBO）的新框架，通过利用约束惩罚代理的可微地形在快速局部下降与不确定性驱动的全局探索之间交替，有效解决了高维约束优化中的维度灾难问题，并在理论收敛性和实验表现上均优于现有方法。

Jing Jingzhe, Fan Zheyi, Szu Hui Ng, Qingpei Hu2026-03-10🤖 cs.LG

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

该论文系统开发了用于机器学习原子间势的混合专家（MoE）架构，通过结合稀疏激活、共享专家及元素级路由策略，不仅显著提升了模型精度并达到基准测试的最先进水平，还揭示了专家网络能够捕捉与元素周期表趋势一致的化学特征。

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench，一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试，旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现，衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

MJ1: Multimodal Judgment via Grounded Verification

本文提出了通过结构化视觉验证链和反事实一致性奖励进行强化学习的 MJ1 模型，该模型仅用 30 亿参数便在 MMRB2 基准上超越了 Gemini-3-Pro 等超大模型，证明了基于视觉证据的验证机制能显著提升多模态判断能力而无需增加模型规模。

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker 提出了一种基于 GRPO 的渐进式思维链长度校准方法，通过动态估计最优长度并调节奖励系数，在显著压缩大语言模型推理长度的同时提升了复杂任务上的准确率。

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

该论文提出了一种名为“摊销最大内积搜索”的基于学习的方法，通过训练输入凸神经网络（SupportNet）直接建模作为支撑函数的最大内积值，或训练向量值网络（KeyNet）直接回归最优键，从而利用梯度和欧拉定理等数学特性，高效地将固定分布查询与键集的匹配成本摊销化。

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

该论文提出了 FedMomentum 框架，通过奇异值分解（SVD）在联邦微调中实现数学正确且保留训练动量的 LoRA 聚合，从而解决了现有方法因噪声或结构表达受限导致的收敛慢和性能差问题。

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

该论文提出了名为 CAMEL 的容量感知混合定律，通过建模模型规模与数据混合的非线性交互及损失到基准的预测关系，构建了一套高效的计算流程，在显著降低大语言模型数据混合优化成本的同时提升了下游任务性能。

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

本文提出了 GCGNet（图一致性生成网络），通过变分生成器、图结构对齐器和图细化器的协同作用，有效建模了含外生变量的时间序列中时空与通道间的联合相关性，并在抗噪性和预测精度上优于现有最先进方法。

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

本文提出了 CDRRM 框架，通过“对比后合成”范式生成高质量、上下文感知的评分标准，在仅需少量数据的情况下显著提升了奖励模型的性能、可解释性并有效缓解了评估偏差。

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

本文提出了稳定联邦 LoRA（SFed-LoRA）框架，通过推导并应用一种考虑客户端数量与秩相互作用的优化缩放因子，有效解决了联邦学习中高秩适配器因聚合方差导致的梯度崩溃问题，从而在无需改变模型架构或增加推理延迟的情况下显著提升了高秩适应的稳定性与收敛速度。

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

该研究提出了一种基于对抗学习的深度域适应框架，通过构建域不变潜在空间，有效克服了 RNA-seq 数据预处理差异和表型异质性带来的挑战，实现了从大规模通用数据集向小规模特定数据集的知识迁移，显著提升了数据稀缺场景下的癌症及组织类型分类精度。

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

该论文提出了确定性可微结构化剪枝（DDP）方法，通过直接优化离散 l0 目标的确定性软代理来消除随机性，从而在显著降低大语言模型推理成本的同时，有效缓解了训练与测试的不匹配问题并实现了更快的收敛速度。

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

本文提出了一种将变分量子电路集成到循环神经网络骨干中的混合量子 - 经典架构，用于多变量临床生理时间序列的多步预测，并在 BIDMC 数据集上验证了其在小样本临床场景中相比传统方法具有更具竞争力的精度、更强的抗噪性及对缺失输入的鲁棒性。

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

本文提出并评估了自回归递归模型（Autoregressive TRM），通过受控实验发现，尽管两阶段细化机制在特定基线中表现优异，但完整的自回归 TRM 架构并未带来可靠的性能提升，因此不建议将其作为主要的研究方向。

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

本文提出了 EAGLE-Pangu 系统，通过将 EAGLE-3 风格的树形推测解码适配至昇腾 NPU 上的盘古模型，利用显式缓存管理、加速器安全的张量化及融合内核验证路径，在确保可复现性的同时显著提升了端到端解码吞吐量。

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架，通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号，并采用课程学习策略，实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

该论文揭示了一种利用隐写术对大语言模型进行恶意微调的新型安全威胁，使模型能在表面呈现完全无害的交互时， covertly 生成并输出被隐藏的真实恶意内容，且该攻击能绕过现有安全检测机制。

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

本文提出了 Tau-BNO，一种基于脑神经算子的代理框架，旨在通过结合反应动力学与方向性输运机制，快速且高精度地近似阿尔茨海默病中 Tau 蛋白传播的复杂生物物理模型，从而克服传统数值模拟计算缓慢的瓶颈并加速机制发现。

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

该论文针对现有基于模型的离线强化学习方法（如 RAMBO）中存在的模型利用过度保守和梯度爆炸问题，提出了一种名为 ROMI 的新方法，通过引入鲁棒价值感知模型学习与隐式可微自适应加权机制，实现了可控的保守性与稳定的模型更新，从而在多个基准数据集上显著提升了性能。

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG