cs.LG articles | Gist.Science

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Cet article propose un algorithme acteur-critic primal-dual intégrant des réseaux de neurones profonds pour les processus de décision markoviens contraints, établissant pour la première fois des garanties de convergence globale et de violation de contraintes dans un cadre de politiques générales et d'approximation non linéaire.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Step-Size Decay and Structural Stagnation in Greedy Sparse Learning

Cet article démontre que, dans le cadre de l'apprentissage parcimonieux, des schedules de pas décroissant trop rapidement peuvent provoquer une stagnation structurelle même en faible dimension, en reliant ce phénomène à la cohérence des caractéristiques et en fournissant des bornes inférieures explicites sur la norme du résidu.

Pablo M. Berná2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

Cet article propose un cadre d'incitation profonde (DID) utilisant des blocs d'équilibre différentiels (DEB) pour résoudre automatiquement et de manière unifiée divers problèmes de conception d'incitations, tels que la conception de contrats et l'ordonnancement de machines, en entraînant un seul réseau neuronal capable de gérer une large gamme de jeux et d'échelles.

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Ce papier présente la distillation inverse, un cadre novateur qui décompose les représentations des grands modèles de langage protéique en sous-espaces orthogonaux guidés par des modèles plus petits, permettant ainsi d'obtenir des embeddings de type « poupée russe » qui garantissent une performance supérieure et cohérente à l'échelle sur les benchmarks ProteinGym.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

A Lightweight MPC Bidding Framework for Brand Auction Ads

Cet article propose un cadre léger de commande prédictive (MPC) pour les enchères publicitaires de marque, utilisant une régression isotonique en ligne pour optimiser l'efficacité des dépenses et le contrôle des coûts sans recourir à des modèles d'apprentissage automatique complexes.

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Les auteurs proposent FedShift, une nouvelle attaque adversariale distribuée en deux étapes de type « cachez et trouvez » qui injecte un « décalage » masqué dans les données d'entraînement pour contourner les défenses fédérées et générer des perturbations efficaces avec une grande furtivité et une réduction de temps de convergence supérieure à 90 %.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Uncertainty-Gated Generative Modeling

Ce papier présente l'UGGM, un modèle génératif qui utilise l'incertitude comme signal de contrôle interne pour améliorer la précision et la robustesse des prévisions de séries temporelles financières, notamment lors des chocs de marché.

Xingrui Gu, Haixi Zhang2026-03-10🤖 cs.LG

Using GPUs And LLMs Can Be Satisfying for Nonlinear Real Arithmetic Problems

Ce papier présente GANRA, un nouveau solveur SMT qui combine des modèles de langage (LLM) et l'accélération GPU pour résoudre efficacement des problèmes d'arithmétique réelle non linéaire, surpassant l'état de l'art en démontrant des améliorations significatives de performance et de temps d'exécution sur des benchmarks spécifiques.

Christopher Brix, Julia Walczak, Nils Lommen, Thomas Noll2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Ce papier présente MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupes intégrant des innovations techniques pour surmonter les goulots d'étranglement de l'entraînement des modèles de codage modernes, accompagnée de nouveaux ensembles de données et d'un évaluateur qui permettent d'obtenir des performances compétitives, voire supérieures, à celles des modèles plus grands.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Cet article présente une méthode d'apprentissage de Lindbladian utilisant des équations différentielles neuronales et une vraisemblance maximale sur des mesures de Pauli à des temps transitoires pour inférer avec robustesse la dynamique de systèmes quantiques ouverts de plusieurs corps, même en présence de bruit et pour des tailles de système allant jusqu'à 6 qubits.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Ce papier présente MicroCoder, un ensemble de données de programmation compétitive soigneusement sélectionné et pondéré par difficulté via un cadre de traitement en quatre étapes, qui démontre que l'entraînement de modèles de code sur des problèmes récents et exigeants améliore significativement leurs performances sur des tâches complexes par rapport aux jeux de données existants.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Le ProgAgent est un agent d'apprentissage par renforcement continu qui unifie l'apprentissage de récompenses basées sur le progrès et une architecture JAX native pour surmonter l'oubli catastrophique et les coûts de spécification des récompenses, permettant ainsi d'acquérir des compétences robotiques complexes à partir de démonstrations humaines peu nombreuses et bruyantes.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Vision Transformers that Never Stop Learning

Cet article propose une analyse systématique de la perte de plasticité dans les Vision Transformers, révélant que les modules d'attention et feed-forward s'y dégradent différemment, et introduit ARROW, un optimiseur géométrique adaptatif qui préserve la plasticité en remodelant les directions de gradient, surpassant ainsi les méthodes de réinitialisation des paramètres.

Caihao Sun, Mingqi Yuan, Shiyuan Wang, Jiayu Chen2026-03-10🤖 cs.LG

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

Cette étude démontre qu'une fonction de coût unique et agnostique vis-à-vis du sujet et de la posture, dont les poids varient dans le temps et sont estimés via l'apprentissage par renforcement inverse, permet de prédire avec une grande précision les mouvements de reaching humains en privilégiant la régulation de l'accélération articulaire.

Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti2026-03-10🤖 cs.LG

Neural Precoding in Complex Projective Spaces

Cet article propose un cadre d'apprentissage profond basé sur les espaces projectifs complexes pour le précodage dans les systèmes MU-MISO, éliminant les redondances de phase globale afin d'améliorer significativement les performances et la généralisation par rapport aux méthodes conventionnelles.

Zaid Abdullah, Merouane Debbah, Symeon Chatzinotas, Bjorn Ottersten2026-03-10🤖 cs.LG

Learning embeddings of non-linear PDEs: the Burgers' equation

Cet article propose une méthode généralisant les réseaux de neurones informés par la physique pour construire des espaces d'embeddings de solutions d'équations aux dérivées partielles non linéaires, démontrée sur l'équation de Burgers visqueuse où une décomposition en composantes principales robuste révèle qu'un petit nombre de modes latents capture l'essentiel de la dynamique.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Cette étude démontre que, pour l'estimation de la biomasse des pâturages sur des données agricoles limitées, la qualité du backbone pré-entraîné et l'utilisation de modules de fusion locaux et simples surpassent les architectures complexes comme les Transformers ou les SSM, révélant un principe d'inversion de la complexité de fusion.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Les auteurs proposent un cadre novateur d'apprentissage par transfert basé sur une optimisation bi-niveau, combinant un extracteur de caractéristiques universel et un adaptateur spécifique à la tâche, pour réaliser une reconstruction d'images de haute qualité, notamment en IRM sous-échantillonnée, malgré un manque de données d'entraînement en exploitant des sources hétérogènes et multi-domaines.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Cet article présente l'algorithme Gradient Iterated Temporal-Difference learning, une méthode de TD gradiente modifiée qui calcule les gradients sur des cibles mobiles pour combiner la stabilité des méthodes de gradient avec une vitesse d'apprentissage compétitive par rapport aux méthodes semi-gradient, surpassant ainsi les travaux antérieurs sur des benchmarks comme les jeux Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Guess & Guide: Gradient-Free Zero-Shot Diffusion Guidance

Ce papier propose une méthode de guidage sans gradient pour les modèles de diffusion pré-entraînés, permettant de résoudre efficacement des problèmes inverses bayésiens en zéro-shot avec une réduction drastique du coût d'inférence tout en obtenant des performances optimales.

Abduragim Shtanchaev, Albina Ilina, Yazid Janati, Arip Asadulaev, Martin Takác, Eric Moulines2026-03-10🤖 cs.LG

← Précédent Suivant →