Robust Training of Neural Networks at Arbitrary Precision and Sparsity

该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning

该论文提出了 ARLBench,这是一个专为强化学习超参数优化设计的高效且灵活的基准测试框架,它通过精选代表性任务子集大幅降低了计算成本,从而促进了不同自动强化学习方法之间的公平比较与广泛研究。

Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa Eimer2026-03-11🤖 cs.LG

Scalable Message Passing Neural Networks: No Need for Attention in Large Graph Representation Learning

该论文提出了一种名为 SMPNN 的新型可扩展图神经网络架构,通过将标准卷积消息传递机制集成到预归一化 Transformer 块中替代注意力机制,不仅克服了传统图神经网络因过平滑而难以构建深层网络的局限,还在无需计算昂贵的注意力机制的情况下,在大规模图表示学习任务中实现了与最先进模型相当甚至更优的性能。

Haitz Sáez de Ocáriz Borde, Artem Lukoianov, Anastasis Kratsios, Michael Bronstein, Xiaowen Dong2026-03-11🤖 cs.LG