Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Cet article propose un algorithme acteur-critic primal-dual intégrant des réseaux de neurones profonds pour les processus de décision markoviens contraints, établissant pour la première fois des garanties de convergence globale et de violation de contraintes dans un cadre de politiques générales et d'approximation non linéaire.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

Cet article propose un cadre d'incitation profonde (DID) utilisant des blocs d'équilibre différentiels (DEB) pour résoudre automatiquement et de manière unifiée divers problèmes de conception d'incitations, tels que la conception de contrats et l'ordonnancement de machines, en entraînant un seul réseau neuronal capable de gérer une large gamme de jeux et d'échelles.

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Ce papier présente la distillation inverse, un cadre novateur qui décompose les représentations des grands modèles de langage protéique en sous-espaces orthogonaux guidés par des modèles plus petits, permettant ainsi d'obtenir des embeddings de type « poupée russe » qui garantissent une performance supérieure et cohérente à l'échelle sur les benchmarks ProteinGym.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Les auteurs proposent FedShift, une nouvelle attaque adversariale distribuée en deux étapes de type « cachez et trouvez » qui injecte un « décalage » masqué dans les données d'entraînement pour contourner les défenses fédérées et générer des perturbations efficaces avec une grande furtivité et une réduction de temps de convergence supérieure à 90 %.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Ce papier présente MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupes intégrant des innovations techniques pour surmonter les goulots d'étranglement de l'entraînement des modèles de codage modernes, accompagnée de nouveaux ensembles de données et d'un évaluateur qui permettent d'obtenir des performances compétitives, voire supérieures, à celles des modèles plus grands.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Cet article présente une méthode d'apprentissage de Lindbladian utilisant des équations différentielles neuronales et une vraisemblance maximale sur des mesures de Pauli à des temps transitoires pour inférer avec robustesse la dynamique de systèmes quantiques ouverts de plusieurs corps, même en présence de bruit et pour des tailles de système allant jusqu'à 6 qubits.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Ce papier présente MicroCoder, un ensemble de données de programmation compétitive soigneusement sélectionné et pondéré par difficulté via un cadre de traitement en quatre étapes, qui démontre que l'entraînement de modèles de code sur des problèmes récents et exigeants améliore significativement leurs performances sur des tâches complexes par rapport aux jeux de données existants.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Le ProgAgent est un agent d'apprentissage par renforcement continu qui unifie l'apprentissage de récompenses basées sur le progrès et une architecture JAX native pour surmonter l'oubli catastrophique et les coûts de spécification des récompenses, permettant ainsi d'acquérir des compétences robotiques complexes à partir de démonstrations humaines peu nombreuses et bruyantes.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

Cette étude démontre qu'une fonction de coût unique et agnostique vis-à-vis du sujet et de la posture, dont les poids varient dans le temps et sont estimés via l'apprentissage par renforcement inverse, permet de prédire avec une grande précision les mouvements de reaching humains en privilégiant la régulation de l'accélération articulaire.

Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti2026-03-10🤖 cs.LG

Learning embeddings of non-linear PDEs: the Burgers' equation

Cet article propose une méthode généralisant les réseaux de neurones informés par la physique pour construire des espaces d'embeddings de solutions d'équations aux dérivées partielles non linéaires, démontrée sur l'équation de Burgers visqueuse où une décomposition en composantes principales robuste révèle qu'un petit nombre de modes latents capture l'essentiel de la dynamique.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Cette étude démontre que, pour l'estimation de la biomasse des pâturages sur des données agricoles limitées, la qualité du backbone pré-entraîné et l'utilisation de modules de fusion locaux et simples surpassent les architectures complexes comme les Transformers ou les SSM, révélant un principe d'inversion de la complexité de fusion.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Les auteurs proposent un cadre novateur d'apprentissage par transfert basé sur une optimisation bi-niveau, combinant un extracteur de caractéristiques universel et un adaptateur spécifique à la tâche, pour réaliser une reconstruction d'images de haute qualité, notamment en IRM sous-échantillonnée, malgré un manque de données d'entraînement en exploitant des sources hétérogènes et multi-domaines.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Cet article présente l'algorithme Gradient Iterated Temporal-Difference learning, une méthode de TD gradiente modifiée qui calcule les gradients sur des cibles mobiles pour combiner la stabilité des méthodes de gradient avec une vitesse d'apprentissage compétitive par rapport aux méthodes semi-gradient, surpassant ainsi les travaux antérieurs sur des benchmarks comme les jeux Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG