Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Questo lavoro risolve le limitazioni teoriche precedenti sull'algoritmo GP-PSRL per il controllo continuo, dimostrando che, anche in spazi di stato illimitati, è possibile ottenere un limite di rimpianto bayesiano sublineare dell'ordine O~(H3/2γT/HT)\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T}) attraverso l'uso di disuguaglianze probabilistiche avanzate e il metodo di chaining.

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Questo articolo propone un nuovo algoritmo di ottimizzazione basato sul calcolo frazionario che, sostituendo il gradiente istantaneo con un operatore di memoria storica ponderata, supera i limiti degli approcci markoviani tradizionali per migliorare significativamente l'accuratezza e la robustezza nella gestione di dati sbilanciati come quelli relativi alla frode finanziaria e alla diagnosi medica.

Gustavo A. DorregoTue, 10 Ma🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Questo lavoro stabilisce un limite superiore all'errore di approssimazione del valore nelle rappresentazioni spettrali dell'apprendimento per rinforzo, dimostrando come tale errore dipenda dall'algebraica connettività del grafo degli stati e fornendo una decomposizione completa dell'errore end-to-end senza assumere simmetrie nel kernel di transizione.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo PapiniTue, 10 Ma🤖 cs.LG

Structural Causal Bottleneck Models

Il paper introduce i modelli causali a collo di bottiglia strutturale (SCBM), una nuova classe di modelli causali che presuppone che gli effetti tra variabili ad alta dimensionalità dipendano solo da statistiche riassuntive a bassa dimensionalità, offrendo un framework flessibile per la riduzione della dimensionalità specifica per il compito e migliorando la stima degli effetti in contesti di apprendimento con pochi dati.

Simon Bing, Jonas Wahl, Jakob RungeTue, 10 Ma🤖 cs.LG

Losing dimensions: Geometric memorization in generative diffusion

Questo studio rivela che i modelli di diffusione non memorizzano i dati in modo improvviso, ma subiscono un collasso geometrico graduale in cui, all'aumentare della scarsità dei dati, le capacità generative si restringono progressivamente su pochi esempi, passando dalla generalizzazione alla copia puntuale attraverso un processo di "congelamento" delle variazioni.

Beatrice Achilli, Enrico Ventura, Gianluigi Silvestri, Bao Pham, Gabriel Raya, Dmitry Krotov, Carlo Lucibello, Luca AmbrogioniThu, 12 Ma📊 stat