cs.LG articles | Gist.Science

Service Placement in Small Cell Networks Using Distributed Best Arm Identification in Linear Bandits

Cet article propose un algorithme d'identification de la meilleure action distribué et adaptatif pour les bandits linéaires, permettant aux petites cellules de collaborer afin de déterminer de manière optimale quels services déployer en périphérie de réseau pour minimiser la latence dans des environnements à forte demande de calcul.

Mariam Yahya, Aydin Sezgin, Setareh Maghsudi2026-03-11🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

Cet article établit des taux de convergence pour la dernière itérée des algorithmes de descente de gradient stochastique et de la boule lourde stochastique dans des cadres convexe et non convexe, en utilisant uniquement l'inégalité de Gronwall discrète pour obtenir des résultats de convergence pour les fonctions objectif à gradient Hölderien.

Marcel Hudiani2026-03-11🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Cette étude évalue systématiquement différentes architectures DeepONet pour la modélisation de la consolidation géotechnique, démontrant qu'une variante enrichie par des caractéristiques de Fourier dans le réseau tronc surpasse les configurations standards et permet une accélération significative des calculs en 3D, ouvrant ainsi la voie à une quantification efficace des incertitudes dans ce domaine.

Yongjin Choi, Chenying Liu, Jorge Macedo2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Ce travail présente LangevinFlow, un modèle d'auto-encodeur variationnel séquentiel inspiré par la physique qui utilise l'équation de Langevin sous-amortie et un réseau d'oscillateurs couplés pour capturer avec succès la dynamique latente complexe des populations neuronales, surpassant les méthodes de l'état de l'art sur plusieurs benchmarks et tâches de décodage comportemental.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Cet article présente la Latent Policy Steering (LPS), une méthode qui améliore les politiques robotiques en faible quantité de données en pré-entraînant un modèle du monde avec des flux optiques pour exploiter des données hétérogènes, puis en affinant ce modèle sur des démonstrations cibles pour sélectionner les meilleures actions et surpasser significativement les approches par imitation comportementale.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Ce papier présente MLES, une approche novatrice combinant des modèles de langage multimodaux et une recherche évolutionnaire pour générer des politiques de contrôle programmatiques transparentes, vérifiables et performantes, offrant une alternative interprétable aux réseaux de neurones opaques du deep reinforcement learning.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang2026-03-11🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Ce papier présente CTRL, une méthode d'apprentissage méta qui combine l'apprentissage résiduel inter-domaines et le regroupement adaptatif pour améliorer la précision globale tout en préservant l'hétérogénéité des sources dans des contextes de nombreux petits ensembles de données, surpassant ainsi les méthodes de référence sur plusieurs jeux de données réels.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Cet article propose une approche novatrice utilisant des avatars virtuels et de la musique générée par l'IA pour transformer les syllabus textuels en présentations audiovisuelles chantées, afin d'améliorer l'engagement, la mémorisation et la compréhension des étudiants.

Xinxing Wu2026-03-11🤖 cs.AI

MuFlex: A Scalable, Physics-based Platform for Multi-Building Flexibility Analysis and Coordination

Le papier présente MuFlex, une plateforme open-source évolutive et basée sur la physique qui permet la coordination de la flexibilité énergétique de plusieurs bâtiments via des modèles détaillés (EnergyPlus et Modelica) et des algorithmes d'apprentissage par renforcement, démontrant ainsi une réduction significative de la demande de pointe tout en maintenant le confort thermique.

Ziyan Wu, Ivan Korolija, Rui Tang2026-03-11⚡ eess

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Cet article présente un cadre léger et efficace en données basé sur les réseaux de neurones à graphes, enrichi par des connaissances spécifiques aux circuits RF, permettant de prédire avec une grande précision les performances de diverses topologies de circuits actifs radiofréquences tout en surpassant considérablement les méthodes de l'état de l'art.

Anahita Asadi, Leonid Popryho, Inna Partin-Vaisband2026-03-11🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Cette étude présente une méthode d'apprentissage en contexte itératif qui améliore la généralisation des grands modèles de langage dans des tâches de raisonnement abstrait, telles que l'algèbre avec des règles non standard, en démontrant que la sélection itérative d'exemples simples et la formulation d'instructions explicites surpassent l'utilisation d'exemples complexes.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Cet article présente un modèle de substitution basé sur un réseau de neurones résiduel entièrement connecté (FCRN) entraîné sur des simulations par éléments finis, permettant de prédire rapidement et avec précision la distribution de courant et les pertes dans les solénoïdes supraconducteurs à haute température de grande taille pour faciliter leur conception intelligente.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing Qu2026-03-11🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

Cet article propose et compare des méthodes de quadrature à points répulsifs pour le calcul de la distance de Wasserstein tranchée sur la sphère, concluant que l'estimateur UnifOrtho est optimal en grande dimension tandis que les méthodes quasi-Monte Carlo sont préférables en faible dimension.

Vladimir Petrovic, Rémi Bardenet, Agnès Desolneux2026-03-11🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Ce papier présente RCS, un écosystème logiciel léger et modulaire conçu pour combler le fossé entre les simulations et les robots réels, afin de faciliter l'entraînement à grande échelle et le déploiement de politiques robotiques généralistes basées sur des modèles vision-langage-action (VLA).

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian Walter2026-03-11🤖 cs.LG

Kuramoto Orientation Diffusion Models

Cet article propose un modèle génératif basé sur la dynamique stochastique de Kuramoto pour mieux capturer les motifs directionnels cohérents des images riches en orientation, comme les empreintes digitales, en remplaçant la diffusion euclidienne isotrope par un processus de synchronisation et de désynchronisation sur des domaines périodiques.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

En utilisant l'agent de mutation de code AlphaEvolve pour découvrir de nouvelles réductions et optimiser les procédures de vérification, cette étude améliore les bornes d'inapproximabilité pour des problèmes d'optimisation combinatoire tels que MAX-CUT, MAX-4-CUT et le problème du voyageur de commerce, démontrant ainsi le potentiel des méthodes d'IA pour faire progresser la théorie de la complexité.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

Le papier présente VLCE, un cadre enrichi de connaissances qui améliore la génération de descriptions d'images de catastrophes en intégrant des bases de sémantiques externes comme ConceptNet et WordNet, surpassant ainsi les modèles vision-langage génériques en termes de précision terminologique et de cohérence factuelle sur des benchmarks satellites et de drones.

Md. Mahfuzur Rahman, Kishor Datta Gupta, Marufa Kamal + 5 more2026-03-11🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

Ce papier présente ZeroSiam, une architecture asymétrique Siamese efficace qui prévient l'effondrement des modèles lors de l'optimisation de l'entropie au moment du test tout en régularisant les signaux d'apprentissage et en améliorant les performances sur diverses tâches de vision et de raisonnement.

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi Shen2026-03-11🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Ce papier présente la Composition Générale des Politiques (GPC), une méthode sans entraînement qui améliore les performances des robots en combinant de manière convexes les scores de distribution de plusieurs politiques pré-entraînées, permettant ainsi de dépasser les capacités de chaque politique individuelle sans coût de données supplémentaire.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo2026-03-11🤖 cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Cet article propose un contrôleur hybride combinant l'apprentissage par renforcement profond et la recherche d'extremum bornée pour améliorer la robustesse et la performance des systèmes non linéaires à temps variable, comme démontré par une application au réglage automatique d'un accélérateur de particules.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander Scheinker2026-03-11🤖 cs.LG

← Précédent Suivant →