Active Advantage-Aligned Online Reinforcement Learning with Offline Data

该论文提出了 A3RL 方法,通过引入一种新颖的置信度感知主动优势对齐(A3)采样策略,动态优先选择与策略演进需求相匹配的在线和离线数据,从而有效解决了结合在线与离线强化学习时面临的灾难性遗忘、数据质量鲁棒性及样本效率低等挑战,并实现了优于现有技术的策略优化效果。

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

该论文提出了名为“文本即时间序列”(TaTS)的新框架,通过将具有周期性特征的配对文本视为时间序列的辅助变量,使现有纯数值时间序列模型无需修改架构即可有效处理多模态数据,从而显著提升预测和插补任务的性能。

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

该论文提出了一种将神经网络视为贝叶斯统计力学系统的线性响应框架,通过估计数据分布扰动下的局部 SGLD 采样响应,高效计算可分解为逐 Token 归因分数的“敏感性”,并利用响应矩阵的低秩结构成功分离了 300 万参数 Transformer 中的功能模块(如多词元头和归纳头)。

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG