Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Cet article propose l'algorithme FlexDOME, la première méthode à garantir théoriquement une violation de contrainte forte quasi-constante, un regret sous-linéaire et une convergence à la dernière itération pour l'apprentissage par renforcement en ligne dans des processus de décision markoviens contraints, grâce à une optimisation primal-duale intégrant des marges de sécurité décroissantes.

Qian Zuo, Zhiyong Wang, Fengxiang He2026-03-04🤖 cs.LG

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Ce papier présente MoToRec, un cadre innovant qui résout le problème du démarrage à froid dans les systèmes de recommandation en transformant les données multimodales en tokens sémantiques discrets via un auto-encodeur variationnel quantifié résiduel régularisé par parcimonie, surpassant ainsi les méthodes existantes grâce à une représentation désenchevêtrée et une fusion robuste des signaux.

Jialin Liu, Zhaorui Zhang, Ray C. C. Cheung2026-03-04🤖 cs.LG

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage

Ce papier présente Fun-DDPS, un cadre de génération basé sur la diffusion en espace fonctionnel couplé à des opérateurs neuronaux différentiables, qui améliore considérablement la précision de la modélisation directe et inverse en stockage géologique du CO₂ en surmontant la rareté des données et en garantissant la cohérence physique des solutions.

Xin Ju, Jiachen Yao, Anima Anandkumar + 2 more2026-03-04🤖 cs.LG

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised Multimodal Entity Alignment

Cet article propose PSQE, une approche théorique et pratique qui améliore la qualité des graines pseudo-alignées pour l'alignement d'entités multimodales non supervisé en utilisant l'information multimodale et un rééchantillonnage par clustering afin de corriger les déséquilibres de couverture du graphe et d'optimiser l'apprentissage par contraste.

Yunpeng Hong, Chenyang Bu, Jie Zhang + 3 more2026-03-04🤖 cs.LG

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Entraîné sur les dossiers de 1,8 million de patients danois, un modèle de langage a démontré une capacité à automatiser le codage médical et a révélé une sous-déclaration systématique de diagnostics secondaires, soulignant l'importance de ces outils pour améliorer la surveillance épidémiologique et la prise en charge des comorbidités.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Le papier présente CoPeP, un nouveau benchmark évaluant l'apprentissage continu sur les modèles de langage protéiques en utilisant une décennie de données UniProt, et démontre que l'exploitation des métadonnées temporelles et de méthodes d'apprentissage continu améliore significativement les performances par rapport à l'entraînement classique.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

En appliquant la Théorie de l'Apprentissage Singulier (SLT), cette étude interprète le phénomène de « grokking » comme une transition de phase entre des bassins de solutions compétitifs dans les réseaux quadratiques, démontrant que le coefficient d'apprentissage local sert d'indicateur fiable pour suivre la dynamique de généralisation et prédire ces transitions.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat