Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

L'article présente la SGPO, une méthode qui améliore l'optimisation par politique relative de groupe (GRPO) en intégrant un juge étape par étape pour exploiter les signaux d'apprentissage des groupes de réponses entièrement incorrects, comblant ainsi une lacune majeure de l'apprentissage par renforcement dans le raisonnement des grands modèles de langage.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

Ce papier présente la Machine de Boltzmann Restreinte Gaussienne-Multinoulli (GM-RBM), une extension du modèle Potts qui remplace les unités cachées binaires par des unités catégorielles à q états pour mieux représenter des concepts multivalués, démontrant ainsi des performances supérieures ou compétitives sur des tâches de mémoire structurée et de rappel analogique par rapport aux modèles continus équivalents.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

Cet article propose une méthode innovante pour découvrir des équations différentielles symboliques à partir de données en utilisant des invariants de symétrie comme entités atomiques, garantissant ainsi que les lois physiques découvertes respectent les symétries du système tout en améliorant l'efficacité et la précision des algorithmes existants.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

L'article présente UltraEdit, une méthode de mise à jour des connaissances dans les grands modèles de langage qui, sans nécessiter de réentraînement, de suivi des sujets ni de mémoire externe, permet une édition en temps réel ultra-rapide et économe en ressources tout en supportant jusqu'à deux millions de modifications grâce à une stratégie de normalisation continue.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Cette étude propose une méthodologie systématique pour évaluer les grands modèles de langage sur des appareils mobiles, démontrant que les modèles volumineux fortement quantifiés surpassent les modèles plus petits à haute précision et offrant des directives pour optimiser leur déploiement dans des environnements aux ressources limitées.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

Le papier présente FrontierCO, un benchmark à grande échelle et fondé sur des structures réelles pour évaluer les solveurs d'optimisation combinatoire par apprentissage automatique, révélant un écart de performance persistant par rapport aux solveurs classiques sur des instances massives tout en identifiant des cas où les méthodes ML surpassent les approches traditionnelles.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Cet article propose SemiCP, une méthode de prédiction conforme semi-supervisée qui améliore la stabilité de la couverture en exploitant des données non étiquetées via un score de non-conformité basé sur l'appariement des plus proches voisins, réduisant ainsi considérablement l'erreur de couverture dans des scénarios à faible étiquetage.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Cette présentation propose CORA, une méthode d'attribution de crédit pour l'apprentissage par renforcement multi-agent coopératif qui utilise l'allocation du noyau de la théorie des jeux coopératifs et l'échantillonnage aléatoire de coalitions pour optimiser l'apprentissage des politiques en attribuant les avantages globaux aux stratégies de coalition.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Cet article propose deux nouveaux algorithmes d'apprentissage par renforcement sans modèle, Q-EarlySettled-LowCost et FedQ-EarlySettled-LowCost, qui réduisent simultanément les coûts d'initialisation, de commutation de politique et de communication tout en garantissant des regrets quasi-optimaux pour l'apprentissage par renforcement en agent unique et fédéré.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Ce papier propose ChannelTokenFormer, un cadre de prévision basé sur les Transformers conçu pour gérer simultanément les dépendances inter-canaux, l'échantillonnage asynchrone et les valeurs manquantes afin d'améliorer la robustesse des prévisions de séries temporelles multivariées dans des conditions réelles.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

L'article présente WAFFLE, un algorithme de détection pré-entraînement utilisant des représentations compressées par transformée en ondelettes ou de Fourier pour identifier les clients malveillants dans l'apprentissage fédéré sans accéder aux données brutes, offrant ainsi une méthode efficace et légère pour améliorer la performance globale du modèle.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Cet article établit les premières garanties de convergence globale linéaire pour une variante de la méthode des moindres carrés itérativement pondérés (IRLS) avec régularisation dynamique, prouvant sa capacité à retrouver un sous-espace sous-jacent à partir de n'importe quelle initialisation dans le cadre de la récupération robuste de sous-espaces et de l'estimation de sous-espaces affines.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG