Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Cet article propose deux nouveaux algorithmes d'apprentissage par renforcement sans modèle, Q-EarlySettled-LowCost et FedQ-EarlySettled-LowCost, qui réduisent simultanément les coûts d'initialisation, de commutation de politique et de communication tout en garantissant des regrets quasi-optimaux pour l'apprentissage par renforcement en agent unique et fédéré.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Ce papier propose ChannelTokenFormer, un cadre de prévision basé sur les Transformers conçu pour gérer simultanément les dépendances inter-canaux, l'échantillonnage asynchrone et les valeurs manquantes afin d'améliorer la robustesse des prévisions de séries temporelles multivariées dans des conditions réelles.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Cet article établit les premières garanties de convergence globale linéaire pour une variante de la méthode des moindres carrés itérativement pondérés (IRLS) avec régularisation dynamique, prouvant sa capacité à retrouver un sous-espace sous-jacent à partir de n'importe quelle initialisation dans le cadre de la récupération robuste de sous-espaces et de l'estimation de sous-espaces affines.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Cette étude évalue systématiquement différentes architectures DeepONet pour la modélisation de la consolidation géotechnique, démontrant qu'une variante enrichie par des caractéristiques de Fourier dans le réseau tronc surpasse les configurations standards et permet une accélération significative des calculs en 3D, ouvrant ainsi la voie à une quantification efficace des incertitudes dans ce domaine.

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Ce travail présente LangevinFlow, un modèle d'auto-encodeur variationnel séquentiel inspiré par la physique qui utilise l'équation de Langevin sous-amortie et un réseau d'oscillateurs couplés pour capturer avec succès la dynamique latente complexe des populations neuronales, surpassant les méthodes de l'état de l'art sur plusieurs benchmarks et tâches de décodage comportemental.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Cet article présente la Latent Policy Steering (LPS), une méthode qui améliore les politiques robotiques en faible quantité de données en pré-entraînant un modèle du monde avec des flux optiques pour exploiter des données hétérogènes, puis en affinant ce modèle sur des démonstrations cibles pour sélectionner les meilleures actions et surpasser significativement les approches par imitation comportementale.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Ce papier présente MLES, une approche novatrice combinant des modèles de langage multimodaux et une recherche évolutionnaire pour générer des politiques de contrôle programmatiques transparentes, vérifiables et performantes, offrant une alternative interprétable aux réseaux de neurones opaques du deep reinforcement learning.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Ce papier présente CTRL, une méthode d'apprentissage méta qui combine l'apprentissage résiduel inter-domaines et le regroupement adaptatif pour améliorer la précision globale tout en préservant l'hétérogénéité des sources dans des contextes de nombreux petits ensembles de données, surpassant ainsi les méthodes de référence sur plusieurs jeux de données réels.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Cet article présente un cadre léger et efficace en données basé sur les réseaux de neurones à graphes, enrichi par des connaissances spécifiques aux circuits RF, permettant de prédire avec une grande précision les performances de diverses topologies de circuits actifs radiofréquences tout en surpassant considérablement les méthodes de l'état de l'art.

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Cette étude présente une méthode d'apprentissage en contexte itératif qui améliore la généralisation des grands modèles de langage dans des tâches de raisonnement abstrait, telles que l'algèbre avec des règles non standard, en démontrant que la sélection itérative d'exemples simples et la formulation d'instructions explicites surpassent l'utilisation d'exemples complexes.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Cet article présente un modèle de substitution basé sur un réseau de neurones résiduel entièrement connecté (FCRN) entraîné sur des simulations par éléments finis, permettant de prédire rapidement et avec précision la distribution de courant et les pertes dans les solénoïdes supraconducteurs à haute température de grande taille pour faciliter leur conception intelligente.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Ce papier présente RCS, un écosystème logiciel léger et modulaire conçu pour combler le fossé entre les simulations et les robots réels, afin de faciliter l'entraînement à grande échelle et le déploiement de politiques robotiques généralistes basées sur des modèles vision-langage-action (VLA).

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Cet article propose un modèle génératif basé sur la dynamique stochastique de Kuramoto pour mieux capturer les motifs directionnels cohérents des images riches en orientation, comme les empreintes digitales, en remplaçant la diffusion euclidienne isotrope par un processus de synchronisation et de désynchronisation sur des domaines périodiques.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Ce papier présente ZeroSiam, une architecture asymétrique Siamese efficace qui prévient l'effondrement des modèles lors de l'optimisation de l'entropie au moment du test tout en régularisant les signaux d'apprentissage et en améliorant les performances sur diverses tâches de vision et de raisonnement.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi ShenWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Ce papier présente la Composition Générale des Politiques (GPC), une méthode sans entraînement qui améliore les performances des robots en combinant de manière convexes les scores de distribution de plusieurs politiques pré-entraînées, permettant ainsi de dépasser les capacités de chaque politique individuelle sans coût de données supplémentaire.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG