Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Cet article établit des bornes de regret bayésien sous-linéaires pour l'algorithme de rétroéchantillonnage de Gaussien (GP-PSRL) dans des espaces d'états continus et non bornés, en démontrant que les états visités restent confinés dans une boule de rayon quasi constant et en obtenant une dépendance optimale par rapport au gain d'information maximal grâce à la méthode de chaînage.

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Cet article propose un nouvel algorithme d'optimisation fondé sur le calcul fractionnaire, utilisant l'intégrale de Weyl pondérée pour remplacer les mises à jour de poids markoviennes par une mémoire historique dynamique, ce qui améliore considérablement la robustesse et les performances sur des données déséquilibrées comme la détection de fraude financière.

Gustavo A. DorregoTue, 10 Ma🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Cet article établit des bornes d'erreur théoriques reliant la qualité des représentations d'état apprises via les vecteurs propres du Laplacien en apprentissage par renforcement à l'connectivité algébrique du graphe de transition, tout en offrant une formulation clarifiée de l'opérateur Laplacien applicable à des politiques générales.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo PapiniTue, 10 Ma🤖 cs.LG

Structural Causal Bottleneck Models

Cet article introduit les modèles de goulot d'étranglement causaux structurels (SCBMs), une nouvelle classe de modèles causaux qui postulent que les effets entre variables de haute dimension dépendent uniquement de statistiques résumées de basse dimension, offrant ainsi un cadre flexible pour la réduction de dimension et l'estimation d'effets dans des contextes de transfert à faible échantillonnage.

Simon Bing, Jonas Wahl, Jakob RungeTue, 10 Ma🤖 cs.LG

Losing dimensions: Geometric memorization in generative diffusion

Cette étude propose une théorie de la mémorisation géométrique démontrant que, face à la rareté des données, les modèles de diffusion subissent un effondrement progressif de leur capacité variationnelle où les caractéristiques saillantes puis les détails fins se figent, menant à une réplication quasi ponctuelle des exemples d'entraînement.

Beatrice Achilli, Enrico Ventura, Gianluigi Silvestri, Bao Pham, Gabriel Raya, Dmitry Krotov, Carlo Lucibello, Luca AmbrogioniThu, 12 Ma📊 stat