A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Diese Arbeit analysiert eine Diffusionsapproximation des Policy-Gradient-Verfahrens für stochastische Banditen, indem sie zeigt, dass bei einer Lernrate von η=O(Δ2/log(n))\eta = O(\Delta^2/\log(n)) ein logarithmisches Regret von O(klog(k)log(n)/η)O(k \log(k) \log(n) / \eta) erreicht wird, während für bestimmte Instanzen mit logarithmisch vielen Armen eine lineare Lernrate η=O(Δ2)\eta = O(\Delta^2) erforderlich ist, um lineares Regret zu vermeiden.

Tor LattimoreThu, 12 Ma📊 stat

A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

Dieses Paper stellt eine neue Trust-Region-Innenpunkt-Stochastische-Sequentielle-Quadratische-Programmierung-Methode (TR-IP-SSQP) vor, die stochastische Zielfunktionen mit deterministischen nichtlinearen Nebenbedingungen löst, globale Konvergenz unter Standardannahmen garantiert und ihre praktische Leistungsfähigkeit an CUTEst-Problemen sowie logistischen Regressionen demonstriert.

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad LavaeiThu, 12 Ma🔢 math

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Die Arbeit untersucht das Problem der Identifizierung des besten Arms in nicht-stationären linearen Banditen mit festem Budget, indem sie eine arm-mengenabhängige untere Schranke für die Fehlerwahrscheinlichkeit herleitet und den zugehörigen Adjacent-BAI\textsf{Adjacent-BAI}-Algorithmus vorschlägt, der diese Schranke bis auf Konstanten erreicht.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam FazelThu, 12 Ma📊 stat

Adaptive Active Learning for Regression via Reinforcement Learning

Die Arbeit stellt Weighted improved Greedy Sampling (WiGS) vor, eine Methode, die das statische Multiplikationsprinzip des Improved Greedy Sampling durch ein dynamisches, auf Reinforcement Learning basierendes additives Kriterium ersetzt, um die Balance zwischen Exploration und Investigation anzupassen und so die Genauigkeit sowie die Effizienz bei der Kennzeichnung von Daten in Regressionen zu verbessern.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormickThu, 12 Ma📊 stat

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Das Paper stellt ReTabSyn vor, eine auf Reinforcement Learning basierende Methode zur realistischen Synthese tabellarischer Daten, die durch den Fokus auf die bedingte Verteilung P(yX)P(y\mid \bm{X}) und direktes Feedback zur Erhaltung von Merkmalskorrelationen insbesondere bei kleinen, unausgewogenen Datensätzen die Leistungsfähigkeit nachgelagerter Modelle verbessert.

Xiaofeng Lin, Seungbae Kim, Zhuoya Li, Zachary DeSoto, Charles Fleming, Guang ChengThu, 12 Ma📊 stat

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Die Studie stellt einen Rahmen für die selektive Vorhersage zur Massenspektren-basierten Molekülidentifikation vor, der durch die Nutzung von Unsicherheitsquantifizierung auf Abfrageebene und verteilungsfreien Risikokontrollen eine zuverlässige Abstimmung zwischen Vorhersagegenauigkeit und Abdeckung ermöglicht.

Mira Jürgens, Gaetan De Waele, Morteza Rakhshaninejad, Willem WaegemanThu, 12 Ma📊 stat

Bayesian Optimization with Gaussian Processes to Accelerate Stationary Point Searches

Diese Arbeit stellt ein einheitliches Bayesian-Optimization-Framework mit Gauß-Prozessen vor, das die Suche nach stationären Punkten auf Potentialenergieflächen durch einen gemeinsamen Sechs-Schritte-Schleifenansatz, erweiterte Kernel-Methoden und effiziente Skalierung für hochdimensionale Systeme beschleunigt.

Rohit Goswami (Institute IMX and Lab-COSMO, École polytechnique fédérale de Lausanne)Thu, 12 Ma📊 stat

Expert-Aided Causal Discovery of Ancestral Graphs

Diese Arbeit stellt Ancestral GFlowNet (AGFN) vor, einen neuartigen Reinforcement-Learning-Algorithmus, der die kausale Entdeckung unter latenten Störgrößen ermöglicht, indem er sowohl vorab eingebrachtes als auch unsicheres nachträgliches Expertenwissen integriert und dabei durch eine bayessche Modellierung des Feedbacks zur wahren kausalen Struktur konvergiert.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena RibeiroMon, 09 Ma🤖 cs.LG