stat.ML articles | Gist.Science

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Cet article étudie une approximation par diffusion en temps continu des algorithmes de gradient de politique pour les bandits stochastiques à $k$ bras, démontrant que des taux de regret optimaux sont atteints avec un taux d'apprentissage spécifique, tout en établissant que des taux linéaires inévitables surviennent sans cette condition même pour un nombre logarithmique de bras.

Tor LattimoreThu, 12 Ma📊 stat

A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

Cet article propose une méthode de programmation quadratique séquentielle stochastique à région de confiance et points intérieurs (TR-IP-SSQP) pour résoudre des problèmes d'optimisation avec une fonction objectif stochastique et des contraintes non linéaires déterministes, en établissant sa convergence globale presque sûre et en validant ses performances pratiques sur des benchmarks et des problèmes de régression logistique.

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad LavaeiThu, 12 Ma🔢 math

Bayesian Hierarchical Models and the Maximum Entropy Principle

Cet article démontre que, lorsque la conditionnelle d'un modèle hiérarchique bayésien suit une distribution canonique de principe d'entropie maximale, la loi marginale dépendante qui en résulte conserve également une propriété d'entropie maximale sous une contrainte différente portant sur la distribution marginale d'une fonction des paramètres inconnus.

Brendon J. BrewerThu, 12 Ma📊 stat

MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

Ce papier propose MultiwayPAM, une nouvelle méthode de clustering tensoriel appliquée aux scores d'évaluation « LLM-as-a-Judge » pour surmonter les défis du coût computationnel et des biais inhérents en identifiant simultanément les membres et les médoides de chaque mode (questions, répondants, évaluateurs).

Chihiro Watanabe, Jingyu SunThu, 12 Ma📊 stat

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Cet article résout le problème d'identification du meilleur bras dans des bandits linéaires non stationnaires en établissant une borne inférieure dépendante de l'ensemble des bras et en proposant l'algorithme $\textsf{Adjacent-BAI}$ , basé sur une conception optimale adjacente, qui atteint cette borne et affine ainsi la complexité de l'apprentissage au-delà des résultats minimax pessimistes.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam FazelThu, 12 Ma📊 stat

Designing Service Systems from Textual Evidence

Cet article propose l'algorithme PP-LUCB, qui combine des scores de modèles de langage et des audits humains ciblés pour identifier de manière optimale et économe la meilleure configuration de système de service malgré les biais systématiques des évaluations automatisées.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-LeviThu, 12 Ma🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

Cet article propose WiGS, une méthode d'apprentissage actif pour la régression qui utilise l'apprentissage par renforcement pour adapter dynamiquement le compromis entre exploration et exploitation, surpassant ainsi les approches existantes en précision et en efficacité d'étiquetage, notamment dans les régions à densité de données irrégulière.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormickThu, 12 Ma📊 stat

GGMPs: Generalized Gaussian Mixture Processes

Cet article présente les Processus de Mélange Gaussien Généralisés (GGMP), une méthode basée sur les processus gaussiens permettant une estimation de densité conditionnelle multimodale et hétéroscédastique tout en conservant une forme prédictive analytique et une mise à l'échelle efficace.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. NoackThu, 12 Ma🤖 cs.LG

Brenier Isotonic Regression

Ce papier propose la régression isotonique de Brenier, une extension de la régression isotonique aux sorties multiples en utilisant le transport optimal de Kantorovich pour imposer une cyclicité monotone via un potentiel convexe, démontrant ainsi des performances supérieures dans la calibration des probabilités et les modèles linéaires généralisés.

Han Bao, Amirreza Eshraghi, Yutong WangThu, 12 Ma📊 stat

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Cet article établit la convergence vers une solution interpolante et analyse le biais implicite de la descente de gradient préconditionnée dans l'espace dual pour des modèles linéaires sur-paramétrés, en démontrant notamment que les préconditionneurs isotropes reproduisent le biais de la descente de gradient standard.

Reza Ghane, Danil Akhtiamov, Babak HassibiThu, 12 Ma📊 stat

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Cette étude compare l'estimation d'incertitude par Dropout de Monte Carlo et la prédiction conforme sur des réseaux de neurones convolutifs entraînés sur Fashion-MNIST, révélant que si le VGG16 est plus précis, le GoogLeNet offre une meilleure calibration et que la prédiction conforme garantit des ensembles de prédictions statistiquement valides pour des décisions à haut risque.

Sanne Ruijs, Alina Kosiakova, Farrukh JavedThu, 12 Ma📊 stat

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Le papier présente ReTabSyn, une pipeline de synthèse de données tabulaires basée sur l'apprentissage par renforcement qui optimise la distribution conditionnelle pour améliorer l'utilité des modèles en aval dans des scénarios à faible volume de données et déséquilibrés.

Xiaofeng Lin, Seungbae Kim, Zhuoya Li, Zachary DeSoto, Charles Fleming, Guang ChengThu, 12 Ma📊 stat

Kernel Tests of Equivalence

Cet article propose de nouveaux tests d'équivalence basés sur des noyaux, utilisant la divergence de Stein et la divergence maximale de moyenne pour évaluer l'absence de différences significatives entre distributions sans les limitations des méthodes paramétriques ou des tests de moments.

Xing Liu, Axel GandyThu, 12 Ma📊 stat

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Cet article présente un cadre de prédiction sélective pour la récupération de structures moléculaires à partir de spectres de masse, démontrant que l'utilisation de mesures de confiance simples et d'incertitudes aléatoires au niveau de la récupération permet d'abstenir les prédictions incertaines et de garantir des taux d'erreur contrôlés dans des applications à haut risque.

Mira Jürgens, Gaetan De Waele, Morteza Rakhshaninejad, Willem WaegemanThu, 12 Ma📊 stat

Bayesian Optimization with Gaussian Processes to Accelerate Stationary Point Searches

Cet article présente un cadre unifié d'optimisation bayésienne utilisant des processus gaussiens pour accélérer la recherche de points stationnaires sur les surfaces d'énergie potentielle, en intégrant des extensions innovantes et un code pédagogique en Rust pour améliorer l'efficacité et la précision des calculs.

Rohit Goswami (Institute IMX and Lab-COSMO, École polytechnique fédérale de Lausanne)Thu, 12 Ma📊 stat

Expert-Aided Causal Discovery of Ancestral Graphs

Cet article présente Ancestral GFlowNet (AGFN), un algorithme d'apprentissage par renforcement qui permet d'inférer la distribution des graphes ancestraux en intégrant de manière itérative des connaissances d'experts incertaines, tant a priori qu'a posteriori, pour affiner la découverte causale en présence de confondants latents.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena RibeiroMon, 09 Ma🤖 cs.LG

Predictive Coding Networks and Inference Learning: Tutorial and Survey

Ce travail présente une revue complète et une spécification formelle des réseaux de codage prédictif, un cadre inspiré des neurosciences qui utilise l'apprentissage par inférence comme alternative biologiquement plausible et potentiellement plus efficace à la rétropropagation, tout en offrant une approche unifiée pour l'apprentissage supervisé et génératif.

Björn van Zwol, Ro Jefferson, Egon L. van den BroekMon, 09 Ma🤖 cs.AI

Theoretical Foundations of Conformal Prediction

Cet ouvrage propose une synthèse pédagogique des fondements théoriques et des preuves unifiées de la prédiction conforme, une méthode d'inférence distributionnelle offrant des garanties de quantification de l'incertitude pour l'apprentissage automatique sans hypothèse sur la distribution des données.

Anastasios N. Angelopoulos, Rina Foygel Barber, Stephen BatesMon, 09 Ma🔢 math

L0-Regularized Quadratic Surface Support Vector Machines

Cet article propose des variantes parcimonieuses des machines à vecteurs de support sur des surfaces quadratiques (QSVM) en imposant une contrainte de cardinalité via la norme $\ell_0$ , et développe un algorithme de décomposition de pénalité efficace pour résoudre ce problème d'optimisation complexe tout en démontrant la supériorité du modèle sur des données de crédit réelles.

Ahmad Mousavi, Ramin Zandvakili, Zheming GaoMon, 09 Ma🤖 cs.LG

Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias

Cet article propose une variante de la descente de miroir entropique avec un pas de type Polyak pour résoudre des systèmes linéaires sans hypothèses restrictives, établissant ainsi des résultats de convergence et en renforçant les bornes sur le biais implicite en norme $\ell_1$ .

Yura Malitsky, Alexander PoschMon, 09 Ma🤖 cs.LG

← Précédent Suivant →