Sparse Offline Reinforcement Learning with Corruption Robustness

本文针对高维稀疏离线强化学习中的强数据污染问题,提出了一种基于稀疏鲁棒估计器预言机的演员 - 评论家方法,克服了传统最小二乘价值迭代在稀疏场景下的局限性,首次在高维稀疏马尔可夫决策过程及单策略集中度覆盖假设下,给出了具有抗污染能力的非平凡理论保证。

Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya MandalTue, 10 Ma🤖 cs.LG

From Mice to Trains: Amortized Bayesian Inference on Graph Data

该论文提出了一种将 amortized Bayesian inference(ABI)框架适配于图数据的两阶段方法,通过结合置换不变的图编码器与灵活的后验估计网络,实现了对节点、边及图级别参数的高效、无似然贝叶斯推断,并在合成数据及生物和物流领域的真实数据上验证了其参数恢复与校准性能。

Svenja Jedhoff, Elizaveta Semenova, Aura Raulo, Anne Meyer, Paul-Christian BürknerTue, 10 Ma🤖 cs.LG

Scalable multitask Gaussian processes for complex mechanical systems with functional covariates

本文提出了一种可扩展的多任务高斯过程模型,通过引入完全可分离核结构来联合处理函数型协变量与多任务相关性,利用克罗内克积结构实现高效计算,并在铆接装配等复杂机械系统中以少量样本实现了优于单任务模型的精准预测与不确定性量化。

Razak Christophe Sabi Gninkou (UPHF, INSA Hauts-De-France, CERAMATHS), Andrés F. López-Lopera (IMAG, LEMON, UM), Franck Massa (LAMIH, INSA Hauts-De-France, UPHF), Rodolphe Le Riche (LIMOS, UCA [2017-2020], ENSM ST-ETIENNE, CNRS)Tue, 10 Ma🔢 math

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

该论文研究了具有无界方差(有限 pp 阶矩,p(1,2)p \in (1,2))和 β\beta-Hölder 连续市场价值函数的上下文双边贸易问题,通过扩展自界性质并结合截断均值估计,确定了最小最大遗憾的精确收敛速率,该速率在 p=2p=2 时退化为经典非参数速率,而在 p1+p \to 1^+ 时趋于线性速率。

Hangyi ZhaoTue, 10 Ma🤖 cs.LG

Kernel Methods for Some Transport Equations with Application to Learning Kernels for the Approximation of Koopman Eigenfunctions: A Unified Approach via Variational Methods, Green's Functions and the Method of Characteristics

本文提出了一种统一的变分、格林函数及特征线方法框架,用于构建适配输运方程的再生核,以通过多核学习自动学习并收敛逼近非线性动力系统的 Koopman 特征函数。

Boumediene Hamzi, Houman Owhadi, Umesh VaidyaTue, 10 Ma🔢 math

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

该论文研究了基于策略梯度的后训练方法,证明了在基础模型具备非平凡似然时,该方法能以最优样本复杂度提升性能,但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍,而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。

Alireza Mousavi-Hosseini, Murat A. ErdogduTue, 10 Ma🤖 cs.LG