Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference

该论文指出先验数据拟合网络(PFN)作为因果推断估计量时存在先验诱导的偏差导致其缺乏频率学派一致性,并提出了一种基于一步后验校正(OSPC)和鞅后验的校准方法,成功恢复了估计量的频率学派一致性并实现了与经典半参数有效估计量渐近等价的分布收敛。

Valentyn Melnychuk, Vahid Balazadeh, Stefan Feuerriegel, Rahul G. Krishnan2026-03-13🤖 cs.LG

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

该论文提出了一种无需训练的“慢 - 快”推理框架(SFI),利用句子内注意力支持稳定性的观察,通过交替执行低成本的快速解码步和触发于语义边界的慢速重算步,在保持生成质量的同时显著提升了长上下文及长思维链场景下的推理吞吐量。

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

该论文针对预训练视觉语言模型在持续学习中因跨模态语义几何失真导致的灾难性遗忘问题,提出了一种无需示例的 SeGP-CL 方法,通过构建对抗锚点探测漂移区域、实施锚点引导的几何蒸馏及文本语义正则化,有效保持了模型的语义几何结构并实现了最先进的性能。

Chiyuan He, Zihuan Qiu, Fanman Meng, Runtong Zhang, Linfeng Xu, Qingbo Wu, Hongliang Li2026-03-13🤖 cs.LG

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

该论文针对跨域强化学习中状态/动作空间不匹配及迁移性难以预判的两大挑战,提出了基于跨域贝尔曼一致性和混合评论家的QQAvatar 方法,通过自适应融合源域与目标域的 Q 函数,实现了无需超参数调节的可靠知识迁移,并在多种机器人任务中验证了其优越性。

Ming-Hong Chen, Kuan-Chen Pan, You-De Huang, Xi Liu, Ping-Chun Hsieh2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

该论文研究了大语言模型强化学习后训练中采样算力的最优分配策略,发现并行rollout数量随算力预算增加而饱和,且针对难易问题分别通过“解锐化”和“覆盖扩展”机制发挥作用,从而为高效RL训练提供了可操作的算力分配规则。

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG