Nuisance Function Tuning and Sample Splitting for Optimally Estimating a Doubly Robust Functional

Cet article démontre que, pour estimer des fonctionnels doublement robustes avec des taux de convergence optimaux, il est nécessaire de combiner judicieusement des stratégies de division de l'échantillon et des réglages de lissage (sous- ou sur-lissage) des fonctions de nuisance, permettant ainsi aux estimateurs par plug-in et aux estimateurs corrigés du premier ordre d'atteindre les taux minimax sur toutes les classes de régularité de Hölder.

Sean McGrath, Rajarshi MukherjeeTue, 10 Ma🔢 math

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Cet article propose une méthode d'échantillonnage par importance recuit (AIS) couplée à une reparamétrisation efficace pour surmonter les limitations des modèles latents à processus gaussiens (GPLVM) dans les espaces de grande dimension, permettant ainsi d'obtenir des bornes variationnelles plus serrées et une convergence plus robuste que les méthodes actuelles.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John PaisleyTue, 10 Ma🤖 cs.LG

The Exploration of Error Bounds in Classification with Noisy Labels

Cet article établit des bornes d'erreur pour le risque excédentaire dans les problèmes de classification avec des étiquettes bruitées en utilisant des réseaux de neurones profonds, en décomposant l'erreur en composantes statistiques et d'approximation tout en tenant compte des dépendances temporelles et de la structure des données sur des variétés de basse dimension.

Haixia Liu, Boxiao Li, Can Yang, Yang WangTue, 10 Ma🤖 cs.LG

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Cet article présente A3RL, une méthode d'apprentissage par renforcement en ligne qui intègre des données hors ligne grâce à une stratégie d'échantillonnage active et consciente de la confiance, surmontant ainsi les défis de l'oubli catastrophique et de l'efficacité des échantillons pour surpasser les techniques existantes.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin ChenTue, 10 Ma🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Cet article propose un cadre d'optimisation de politique hors ligne individualisé pour des processus de décision markoviens hétérogènes, introduisant un algorithme nommé P4L qui garantit une convergence rapide du regret grâce à l'estimation de fonctions Q individuelles via des variables latentes, tout en surpassant les méthodes existantes sur des données simulées et réelles.

Rui Miao, Babak Shahbaba, Annie QuTue, 10 Ma🤖 cs.LG

Online Decision-Focused Learning

Cet article propose la première approche théoriquement garantie pour l'apprentissage axé sur la décision en ligne dans des environnements dynamiques, en régularisant la fonction objectif et en utilisant des techniques de perturbation pour surmonter l'absence de gradients et la non-convexité, tout en établissant des bornes de regret et en validant l'efficacité de l'algorithme sur un problème de sac à dos.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain DurmusTue, 10 Ma🤖 cs.LG

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Cette étude démontre que les méthodes d'imputation par équations chaînées (MICE) constituent une alternative efficace et plus simple à mettre en œuvre que les réseaux antagonistes génératifs et les autoencodeurs pour la génération de données synthétiques en tarification actuarielle, tout en préservant fidèlement les distributions et les relations multivariées nécessaires à l'entraînement de modèles GLM.

Yevhen Havrylenko, Meelis Käärik, Artur TuttarTue, 10 Ma🤖 cs.LG

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

Cet article propose une classe de méthodes F²SA-pp utilisant des différences finies d'ordre pp pour l'optimisation stochastique bi-niveau, améliorant la complexité de recherche d'un point stationnaire à O~(pϵ4p/2)\tilde{\mathcal{O}}(p \epsilon^{-4-p/2}) pour des problèmes hautement lisses et démontrant que cette borne est presque optimale.

Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao ZhangTue, 10 Ma🤖 cs.LG

Fast reconstruction of degenerate populations of conductance-based neuron models from spike times

Cet article présente une méthode combinant l'apprentissage profond et les conductances d'entrée dynamiques (DIC) pour reconstruire rapidement et efficacement des populations dégénérées de modèles de neurones à base de conductance à partir uniquement des temps de décharge, en surmontant le défi de l'inférence des paramètres biophysiques malgré la variabilité des canaux ioniques.

Julien Brandoit, Damien Ernst, Guillaume Drion, Arthur FyonTue, 10 Ma🤖 cs.LG

GDR-learners: Orthogonal Learning of Generative Models for Potential Outcomes

Ce papier présente les GDR-learners, une nouvelle famille d'apprentissages génératifs orthogonaux et doublement robustes qui, en s'inspirant de modèles d'état de l'art comme les flux normalisants conditionnels et les modèles de diffusion, permettent d'estimer de manière asymptotiquement optimale les distributions des résultats potentiels à partir de données observationnelles.

Valentyn Melnychuk, Stefan FeuerriegelTue, 10 Ma🤖 cs.LG

Overlap-Adaptive Regularization for Conditional Average Treatment Effect Estimation

Cet article présente une nouvelle méthode de régularisation adaptative à l'overlap (OAR) qui améliore l'estimation de l'effet moyen conditionnel du traitement (CATE) dans les régions à faible recouvrement en ajustant la régularisation des modèles selon les poids d'overlap, tout en préservant l'orthogonalité de Neyman pour des inférences robustes.

Valentyn Melnychuk, Dennis Frauen, Jonas Schweisthal, Stefan FeuerriegelTue, 10 Ma🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Cet article propose le DRQ-learner, un nouvel apprentissage méta pour l'estimation des résultats individuels dans les processus de décision markoviens, qui garantit la double robustesse, l'orthogonalité de Neyman et l'efficacité quasi-oracle tout en étant applicable à divers espaces d'états et modèles d'apprentissage automatique.

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan FeuerriegelTue, 10 Ma🤖 cs.LG