\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

该论文提出了一种名为“摊销最大内积搜索”的基于学习的方法,通过训练输入凸神经网络(SupportNet)直接建模作为支撑函数的最大内积值,或训练向量值网络(KeyNet)直接回归最优键,从而利用梯度和欧拉定理等数学特性,高效地将固定分布查询与键集的匹配成本摊销化。

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

本文提出了稳定联邦 LoRA(SFed-LoRA)框架,通过推导并应用一种考虑客户端数量与秩相互作用的优化缩放因子,有效解决了联邦学习中高秩适配器因聚合方差导致的梯度崩溃问题,从而在无需改变模型架构或增加推理延迟的情况下显著提升了高秩适应的稳定性与收敛速度。

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

该研究提出了一种基于对抗学习的深度域适应框架,通过构建域不变潜在空间,有效克服了 RNA-seq 数据预处理差异和表型异质性带来的挑战,实现了从大规模通用数据集向小规模特定数据集的知识迁移,显著提升了数据稀缺场景下的癌症及组织类型分类精度。

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

该论文针对现有基于模型的离线强化学习方法(如 RAMBO)中存在的模型利用过度保守和梯度爆炸问题,提出了一种名为 ROMI 的新方法,通过引入鲁棒价值感知模型学习与隐式可微自适应加权机制,实现了可控的保守性与稳定的模型更新,从而在多个基准数据集上显著提升了性能。

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG