DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

该论文针对现有基于模型的离线强化学习方法(如 RAMBO)中存在的模型利用过度保守和梯度爆炸问题,提出了一种名为 ROMI 的新方法,通过引入鲁棒价值感知模型学习与隐式可微自适应加权机制,实现了可控的保守性与稳定的模型更新,从而在多个基准数据集上显著提升了性能。

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构,通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器,实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统,并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

该论文提出了一种名为 TRIAGE 的轻量级后处理框架,通过将不确定性分解为源于观测噪声的偶然性不确定性和源于模型失配的认知不确定性,并据此分别触发观测恢复、控制调节及感知模型容量选择等针对性响应,从而在机器人操作和自适应感知任务中显著提升了系统性能与效率。

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

Explainable Condition Monitoring via Probabilistic Anomaly Detection Applied to Helicopter Transmissions

该论文提出了一种仅利用健康数据、基于贝叶斯视角的概率异常检测方法,通过量化不确定性并提供可解释性工具,在直升机传动系统等安全关键场景中实现了具有竞争力的故障检测与预警性能。

Aurelio Raffa Ugolini, Jessica Leoni, Valentina Breschi, Damiano Paniccia, Francesco Aldo Tucci, Luigi Capone, Mara Tanelli2026-03-10🤖 cs.LG

Training event-based neural networks with exact gradients via Differentiable ODE Solving in JAX

该论文介绍了基于 JAX 的 Eventax 框架,它通过结合可微分数值 ODE 求解器与事件处理机制,在支持任意 ODE 定义的神经元模型灵活性的同时,实现了无需近似梯度的精确梯度训练,从而解决了现有脉冲神经网络训练框架在模型灵活性与梯度准确性之间的权衡难题。

Lukas König, Manuel Kuhn, David Kappel, Anand Subramoney2026-03-10🤖 cs.LG

C2^2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

该论文通过严格理论分析揭示了分类器自由引导(CFG)中固定权重策略的局限性,并据此提出了一种无需训练、即插即用的控制分类器自由引导(C²FG)方法,通过指数衰减控制函数动态调整引导强度以匹配扩散过程,从而在多种生成任务中显著提升了效果。

Jiayang Gao, Tianyi Zheng, Jiayang Zou, Fengxiang Yang, Shice Liu, Luyao Fan, Zheyu Zhang, Hao Zhang, Jinwei Chen, Peng-Tao Jiang, Bo Li, Jia Wang2026-03-10🤖 cs.LG

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

该论文介绍了 Covenant-72B,这是首个利用区块链协议实现完全开放、无需许可的参与,并通过高效稀疏优化器 SparseLoCo 在动态变化的全球分布式网络中成功预训练的 720 亿参数大语言模型,证明了在大规模去中心化场景下训练出具有竞争力的基础模型是可行的。

Joel Lidin, Amir Sarfi, Erfan Miahi, Quentin Anthony, Shivam Chauhan, Evangelos Pappas, Benjamin Thérien, Eugene Belilovsky, Samuel Dare2026-03-10🤖 cs.LG