Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

该论文建立了基于小批量随机梯度下降优化的深度 Cox 模型中“小批量最大偏似然估计量”(mb-MPLE)的统计理论框架,证明了其一致性、最优收敛速率及渐近正态性,并提供了关于学习率与批量比等超参数调优的实用指导,从而解决了大规模数据下标准估计量难以计算的问题。

Lang Zeng, Weijing Tang, Zhao Ren, Ying DingTue, 10 Ma🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

本文提出了一种结合退火重要性采样与变分推断的算法,通过重参数化证据下界并构建中间分布序列,有效解决了高维复杂数据下高斯过程潜在变量模型中提案分布难以生成的问题,从而实现了更紧的变分界、更高的对数似然及更稳健的收敛。

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John PaisleyTue, 10 Ma🤖 cs.LG

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

该论文提出了 A3RL 方法,通过引入一种新颖的置信度感知主动优势对齐(A3)采样策略,动态优先选择与策略演进需求相匹配的在线和离线数据,从而有效解决了结合在线与离线强化学习时面临的灾难性遗忘、数据质量鲁棒性及样本效率低等挑战,并实现了优于现有技术的策略优化效果。

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin ChenTue, 10 Ma🤖 cs.LG

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

本文针对非凸强凸随机双层优化问题,提出了一种利用pp阶有限差分近似超梯度的 F2^2SA-pp算法,将O(ϵ6)O(\epsilon^{-6})的复杂度上界提升至O~(pϵ4p/2)\tilde{\mathcal{O}}(p \epsilon^{-4-p/2}),并证明了在高度光滑条件下该上界接近Ω(ϵ4)\Omega(\epsilon^{-4})的理论下界。

Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao ZhangTue, 10 Ma🤖 cs.LG

GDR-learners: Orthogonal Learning of Generative Models for Potential Outcomes

本文提出了一类名为 GDR-learners 的通用生成式 Neyman 正交(双重稳健)学习器,该框架可灵活结合条件归一化流、生成对抗网络、变分自编码器及扩散模型等多种先进深度生成模型,以实现对潜在结果条件分布的估计,并具备准 Oracle 效率、速率双重稳健性及渐近最优性等理论优势。

Valentyn Melnychuk, Stefan FeuerriegelTue, 10 Ma🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

本文提出了一种名为 DRQ-learner 的新型元学习器,用于在马尔可夫决策过程中基于观测数据估计个体化潜在结果,该学习器具备双重稳健性、Neyman 正交性及拟 Oracle 效率等理论优势,且能灵活结合任意机器学习模型处理离散或连续状态空间,并在实验中表现优于现有基线方法。

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan FeuerriegelTue, 10 Ma🤖 cs.LG