stat.ML 篇论文 | Gist.Science

Beyond ReinMax: Low-Variance Gradient Estimators for Discrete Latent Variables

本文针对 ReinMax 估计器方差过高的问题，提出了结合 Rao-Blackwell 化与控制变量技术的 ReinMax-Rao 和 ReinMax-CV 估计器，在降低方差的同时提升了离散潜变量变分自编码器的训练性能，并从数值积分角度重新审视了 ReinMax 的构建原理。

Daniel Wang, Thang D. BuiTue, 10 Ma🤖 cs.LG

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

该论文通过递归应用 Borell-Tsirelson-Ibragimov-Sudakov 不等式证明高斯过程后验采样强化学习（GP-PSRL）算法在连续控制中的访问状态有界，并利用链式方法推导出了针对无界状态空间的紧贝叶斯后悔界 $\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T})$ ，从而解决了现有理论在最大信息增益依赖性和状态空间无界性方面的局限。

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG

stat.ML

Beyond ReinMax: Low-Variance Gradient Estimators for Discrete Latent Variables

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Towards plausibility in time series counterfactual explanations

Unifying On- and Off-Policy Variance Reduction Methods

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Efficient Credal Prediction through Decalibration

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Generative Adversarial Regression (GAR): Learning Conditional Risk Scenarios

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Structural Causal Bottleneck Models

Disjunctive Branch-and-Bound for Certifiably Optimal Low-Rank Matrix Completion

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Learning Robust Treatment Rules for Censored Data

Exploratory Optimal Stopping: A Singular Control Formulation

EarthquakeNPP: A Benchmark for Earthquake Forecasting with Neural Point Processes

Losing dimensions: Geometric memorization in generative diffusion

Conditional Local Importance by Quantile Expectations

Pairwise Comparisons without Stochastic Transitivity: Model, Theory and Applications

An Algorithm to perform Covariance-Adjusted Support Vector Classification in Non-Euclidean Spaces