Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Questo lavoro propone due nuovi algoritmi di apprendimento per rinforzo privi di modello, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, che per la prima volta raggiungono simultaneamente un rimpianto quasi ottimale, costi di avvio lineari rispetto agli stati e alle azioni e costi di commutazione o comunicazione logaritmici, sia per agenti singoli che in contesti federati.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Il paper presenta ChannelTokenFormer, un framework basato su Transformer che affronta simultaneamente le sfide della dipendenza tra canali, del campionamento asincrono e dei valori mancanti per migliorare l'accuratezza e la robustezza delle previsioni di serie temporali multivariate in scenari reali.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Questo articolo stabilisce le prime garanzie di convergenza globale per un variante dell'algoritmo IRLS con regolarizzazione dinamica, dimostrando che esso converge linearmente al sottospazio sottostante da qualsiasi inizializzazione nel contesto del recupero robusto dei sottospazi e dell'estimazione affine, estendendo inoltre i risultati teorici all'addestramento di reti neurali a bassa dimensionalità.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Questo studio valuta diverse architetture DeepONet per il problema della consolidazione geotecnica, dimostrando che un modello potenziato con caratteristiche di Fourier nel trunk net supera le limitazioni delle configurazioni standard e offre un'accelerazione computazionale significativa, specialmente in scenari 3D, facilitando così l'analisi dell'incertezza.

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Il paper introduce LangevinFlow, un modello di Variational Auto-Encoder sequenziale ispirato alla fisica che utilizza l'equazione di Langevin sottosmorzata e potenziali basati su oscillatori accoppiati per catturare con successo la dinamica latente delle popolazioni neurali, superando gli stati dell'arte nella previsione delle attività neuronali e nel decoding dei comportamenti.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Il paper presenta Latent Policy Steering (LPS), un metodo che migliora le politiche visuomotorie robotiche in scenari con pochi dati preaddestando un modello del mondo su rappresentazioni di flusso ottico agnostiche rispetto all'effettore per sfruttare dati eterogenei, per poi affinare la politica e selezionare le azioni ottimali tramite una funzione di valore appresa.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Questo lavoro introduce MLES, un nuovo approccio che combina modelli linguistici multimodali e ricerca evolutiva per generare automaticamente politiche di controllo programmatiche trasparenti e verificabili, ottenendo prestazioni comparabili ai metodi di deep reinforcement learning tradizionali ma con una logica interpretabile dall'uomo.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Il paper introduce CTRL, un metodo di apprendimento meta che combina l'apprendimento residuo e il clustering adattivo per migliorare l'accuratezza e preservare l'eterogeneità delle fonti in contesti caratterizzati da molti piccoli dataset con distribuzioni diverse, dimostrando prestazioni superiori rispetto agli standard attuali su cinque dataset reali, incluso un programma nazionale di asilo in Svizzera.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Questo lavoro presenta un framework leggero e basato su reti neurali grafiche (GNN) arricchito da conoscenze specifiche del dominio RF, in grado di prevedere con elevata accuratezza e in modo efficiente dal punto di vista dei dati le prestazioni di circuiti attivi a radiofrequenza, superando significativamente le prestazioni degli approcci attuali grazie a una migliore generalizzazione tra diverse topologie.

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Questo studio introduce una metodologia di apprendimento in contesto iterativo con selezione adattiva degli esempi, dimostrando che tale approccio, integrato con istruzioni di ragionamento esplicite, migliora significativamente la capacità di generalizzazione sistematica dei modelli linguistici su compiti algebrici complessi, rivelando paradossalmente che esempi più semplici possono essere più efficaci di quelli complessi.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Questo lavoro presenta un modello surrogato basato su una rete neurale residua completamente connessa (FCRN) addestrato su simulazioni FEM per prevedere rapidamente la distribuzione della densità di corrente e ottimizzare il design di magneti solenoidi in REBCO su larga scala, superando i limiti computazionali dei metodi tradizionali con errori ridotti.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Questo lavoro introduce il Robot Control Stack (RCS), un ecosistema leggero e modulare progettato per colmare il divario tra l'addestramento su larga scala di modelli Vision-Language-Action e la loro applicazione nel mondo reale, facilitando il trasferimento sim-to-real e offrendo una valutazione estesa di diverse politiche robotiche.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Il paper propone un modello generativo basato su score che utilizza le dinamiche stocastiche di Kuramoto su domini periodici per migliorare la generazione di immagini ricche di orientamento, come impronte digitali e texture, sfruttando la sincronizzazione e la desincronizzazione delle fasi per modellare efficacemente i pattern angolari coerenti.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Il paper presenta ZeroSiam, un'architettura asimmetrica efficiente che previene il collasso durante l'ottimizzazione dell'entropia al momento del test, migliorando la stabilità e le prestazioni sia nei compiti di adattamento visivo che nel ragionamento dei modelli linguistici su larga scala.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi ShenWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Questo lavoro introduce la Composizione Generale delle Politiche (GPC), un metodo senza addestramento che migliora le prestazioni dei robot combinando a tempo di test i punteggi distribuzionali di modelli pre-addestrati eterogenei, dimostrandosi efficace sia in simulazione che nel mondo reale.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG