cs.LG articoli | Gist.Science

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Questo lavoro propone due nuovi algoritmi di apprendimento per rinforzo privi di modello, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, che per la prima volta raggiungono simultaneamente un rimpianto quasi ottimale, costi di avvio lineari rispetto agli stati e alle azioni e costi di commutazione o comunicazione logaritmici, sia per agenti singoli che in contesti federati.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Il paper presenta ChannelTokenFormer, un framework basato su Transformer che affronta simultaneamente le sfide della dipendenza tra canali, del campionamento asincrono e dei valori mancanti per migliorare l'accuratezza e la robustezza delle previsioni di serie temporali multivariate in scenari reali.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Uncovering Social Network Activity Using Joint User and Topic Interaction

Questo articolo presenta il modello MIC (Mixture of Interacting Cascades), basato su processi di Hawkes multidimensionali, che supera i metodi esistenti nel modellare congiuntamente le interazioni tra utenti e cascata informative, offrendo al contempo visualizzazioni approfondite dell'attività delle reti sociali.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-FurlingWed, 11 Ma🤖 cs.LG

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Il paper presenta ConLID, un approccio di apprendimento contrastivo supervisionato che migliora l'identificazione delle lingue a risorse limitate su dati fuori dominio ottenendo un incremento di 3,2 punti percentuali senza compromettere le prestazioni delle lingue ad alta risorsa.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Questo articolo stabilisce le prime garanzie di convergenza globale per un variante dell'algoritmo IRLS con regolarizzazione dinamica, dimostrando che esso converge linearmente al sottospazio sottostante da qualsiasi inizializzazione nel contesto del recupero robusto dei sottospazi e dell'estimazione affine, estendendo inoltre i risultati teorici all'addestramento di reti neurali a bassa dimensionalità.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

Questo studio stabilisce nuovi tassi di convergenza per l'ultima iterazione degli algoritmi di discesa del gradiente stocastico (SGD) e del heavy ball stocastico (SHB) su funzioni obiettivo globalmente convesse o non convesse con gradiente Hölderiano, dimostrando risultati tramite la disuguaglianza discreta di Gronwall senza ricorrere al teorema di Robbins-Siegmund.

Marcel HudianiWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Questo studio valuta diverse architetture DeepONet per il problema della consolidazione geotecnica, dimostrando che un modello potenziato con caratteristiche di Fourier nel trunk net supera le limitazioni delle configurazioni standard e offre un'accelerazione computazionale significativa, specialmente in scenari 3D, facilitando così l'analisi dell'incertezza.

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Il paper introduce LangevinFlow, un modello di Variational Auto-Encoder sequenziale ispirato alla fisica che utilizza l'equazione di Langevin sottosmorzata e potenziali basati su oscillatori accoppiati per catturare con successo la dinamica latente delle popolazioni neurali, superando gli stati dell'arte nella previsione delle attività neuronali e nel decoding dei comportamenti.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Il paper presenta Latent Policy Steering (LPS), un metodo che migliora le politiche visuomotorie robotiche in scenari con pochi dati preaddestando un modello del mondo su rappresentazioni di flusso ottico agnostiche rispetto all'effettore per sfruttare dati eterogenei, per poi affinare la politica e selezionare le azioni ottimali tramite una funzione di valore appresa.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Questo lavoro introduce MLES, un nuovo approccio che combina modelli linguistici multimodali e ricerca evolutiva per generare automaticamente politiche di controllo programmatiche trasparenti e verificabili, ottenendo prestazioni comparabili ai metodi di deep reinforcement learning tradizionali ma con una logica interpretabile dall'uomo.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Il paper introduce CTRL, un metodo di apprendimento meta che combina l'apprendimento residuo e il clustering adattivo per migliorare l'accuratezza e preservare l'eterogeneità delle fonti in contesti caratterizzati da molti piccoli dataset con distribuzioni diverse, dimostrando prestazioni superiori rispetto agli standard attuali su cinque dataset reali, incluso un programma nazionale di asilo in Svizzera.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Questo studio propone un approccio innovativo che utilizza avatar virtuali e musica generata dall'intelligenza artificiale per trasformare i programmi didattici testuali in canzoni audiovisive, migliorando significativamente l'engagement, la comprensione e il ricordo delle informazioni essenziali da parte degli studenti.

Xinxing WuWed, 11 Ma🤖 cs.AI

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Questo lavoro presenta un framework leggero e basato su reti neurali grafiche (GNN) arricchito da conoscenze specifiche del dominio RF, in grado di prevedere con elevata accuratezza e in modo efficiente dal punto di vista dei dati le prestazioni di circuiti attivi a radiofrequenza, superando significativamente le prestazioni degli approcci attuali grazie a una migliore generalizzazione tra diverse topologie.

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Questo studio introduce una metodologia di apprendimento in contesto iterativo con selezione adattiva degli esempi, dimostrando che tale approccio, integrato con istruzioni di ragionamento esplicite, migliora significativamente la capacità di generalizzazione sistematica dei modelli linguistici su compiti algebrici complessi, rivelando paradossalmente che esempi più semplici possono essere più efficaci di quelli complessi.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Questo lavoro presenta un modello surrogato basato su una rete neurale residua completamente connessa (FCRN) addestrato su simulazioni FEM per prevedere rapidamente la distribuzione della densità di corrente e ottimizzare il design di magneti solenoidi in REBCO su larga scala, superando i limiti computazionali dei metodi tradizionali con errori ridotti.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

Questo articolo propone e valuta metodi di Monte Carlo repulsivi per calcolare la distanza di Wasserstein tagliata (sliced Wasserstein distance) su sfere di qualsiasi dimensione, concludendo che l'uso di UnifOrtho è preferibile in alte dimensioni mentre i metodi di quasi-Monte Carlo randomizzato sono ottimali in basse dimensioni.

Vladimir Petrovic, Rémi Bardenet, Agnès DesolneuxWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Questo lavoro introduce il Robot Control Stack (RCS), un ecosistema leggero e modulare progettato per colmare il divario tra l'addestramento su larga scala di modelli Vision-Language-Action e la loro applicazione nel mondo reale, facilitando il trasferimento sim-to-real e offrendo una valutazione estesa di diverse politiche robotiche.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Il paper propone un modello generativo basato su score che utilizza le dinamiche stocastiche di Kuramoto su domini periodici per migliorare la generazione di immagini ricche di orientamento, come impronte digitali e texture, sfruttando la sincronizzazione e la desincronizzazione delle fasi per modellare efficacemente i pattern angolari coerenti.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Il paper presenta ZeroSiam, un'architettura asimmetrica efficiente che previene il collasso durante l'ottimizzazione dell'entropia al momento del test, migliorando la stabilità e le prestazioni sia nei compiti di adattamento visivo che nel ragionamento dei modelli linguistici su larga scala.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi ShenWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Questo lavoro introduce la Composizione Generale delle Politiche (GPC), un metodo senza addestramento che migliora le prestazioni dei robot combinando a tempo di test i punteggi distribuzionali di modelli pre-addestrati eterogenei, dimostrandosi efficace sia in simulazione che nel mondo reale.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

← Precedente Successivo →