cs.LG articles | Gist.Science

Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Cet article propose l'algorithme FlexDOME, la première méthode à garantir théoriquement une violation de contrainte forte quasi-constante, un regret sous-linéaire et une convergence à la dernière itération pour l'apprentissage par renforcement en ligne dans des processus de décision markoviens contraints, grâce à une optimisation primal-duale intégrant des marges de sécurité décroissantes.

Qian Zuo, Zhiyong Wang, Fengxiang He2026-03-04🤖 cs.LG

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Ce papier présente MoToRec, un cadre innovant qui résout le problème du démarrage à froid dans les systèmes de recommandation en transformant les données multimodales en tokens sémantiques discrets via un auto-encodeur variationnel quantifié résiduel régularisé par parcimonie, surpassant ainsi les méthodes existantes grâce à une représentation désenchevêtrée et une fusion robuste des signaux.

Jialin Liu, Zhaorui Zhang, Ray C. C. Cheung2026-03-04🤖 cs.LG

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage

Ce papier présente Fun-DDPS, un cadre de génération basé sur la diffusion en espace fonctionnel couplé à des opérateurs neuronaux différentiables, qui améliore considérablement la précision de la modélisation directe et inverse en stockage géologique du CO₂ en surmontant la rareté des données et en garantissant la cohérence physique des solutions.

Xin Ju, Jiachen Yao, Anima Anandkumar + 2 more2026-03-04🤖 cs.LG

A Penalty Approach for Differentiation Through Black-Box Quadratic Programming Solvers

Cet article présente dXPP, un cadre de différenciation basé sur une méthode de pénalité qui permet de contourner les limitations des approches KKT en découplant la résolution de programmes quadratiques de leur différenciation, offrant ainsi une meilleure efficacité computationnelle et une robustesse accrue pour les problèmes à grande échelle.

Yuxuan Linghu, Zhiyuan Liu, Qi Deng2026-03-04🤖 cs.LG

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Cette étude démontre que les optimiseurs à base de momentum comme Adam et Muon, lorsqu'ils sont appliqués à des réseaux de neurones homogènes lisses, suivent des trajectoires de descente de pente normalisée qui les biaisent implicitement vers la maximisation de marges spécifiques selon la norme choisie.

Eitan Gronich, Gal Vardi2026-03-04📊 stat

Selecting Optimal Variable Order in Autoregressive Ising Models

Cet article propose d'optimiser l'ordre des variables dans les modèles d'Ising autorégressifs en apprenant la structure du champ aléatoire de Markov sous-jacent, ce qui permet de réduire la complexité conditionnelle et d'améliorer la fidélité des échantillons générés par rapport aux ordonnancements naïfs.

Shiba Biswal, Marc Vuffray, Andrey Y. Lokhov2026-03-04📊 stat

A Researcher's Guide to Empirical Risk Minimization

Ce guide propose une méthodologie modulaire pour établir des bornes de regret à haute probabilité en minimisation du risque empirique, en s'appuyant sur une recette en trois étapes pour les problèmes standards et en étendant ces résultats aux cadres avec composantes de nuisance, y compris le régime d'échantillonnage in-sample.

Lars van der Laan2026-03-04📊 stat

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

SigmaQuant est un cadre de quantification hétérogène adaptatif conçu pour optimiser l'équilibre entre précision et utilisation des ressources lors de l'inférence de réseaux de neurones profonds sur des dispositifs embarqués, sans nécessiter de recherche exhaustive dans l'espace de conception.

Qunyou Liu, Pengbo Yu, Marina Zapater + 1 more2026-03-04🤖 cs.LG

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised Multimodal Entity Alignment

Cet article propose PSQE, une approche théorique et pratique qui améliore la qualité des graines pseudo-alignées pour l'alignement d'entités multimodales non supervisé en utilisant l'information multimodale et un rééchantillonnage par clustering afin de corriger les déséquilibres de couverture du graphe et d'optimiser l'apprentissage par contraste.

Yunpeng Hong, Chenyang Bu, Jie Zhang + 3 more2026-03-04🤖 cs.LG

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Ce papier propose un système de mémoire neuronale généralisé qui permet des mises à jour flexibles et sélectives basées sur des instructions en langage naturel, offrant ainsi un contrôle accru sur ce que les modèles apprennent dans des environnements non stationnaires.

Max S. Bennett, Thomas P. Zollo, Richard Zemel2026-03-04🤖 cs.LG

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Le papier présente FlexGuard, un modérateur de contenu LLM basé sur un score de risque continu et calibré qui surpasse les approches binaires existantes en offrant une robustesse accrue face aux variations de sévérité des règles de modération, grâce à l'introduction du benchmark FlexBench et à une optimisation d'alignement des risques.

Zhihao Ding, Jinming Li, Ze Lu + 1 more2026-03-04🤖 cs.AI

A Boundary Integral-based Neural Operator for Mesh Deformation

Cet article propose une méthode de déformation de maillage efficace et précise, nommée BINO, qui combine une représentation par intégrale de bord avec un opérateur neuronal pour résoudre des problèmes d'élasticité linéaire tout en garantissant la qualité du maillage et l'efficacité computationnelle.

Zhengyu Wu, Jun Liu, Wei Wang2026-03-04🤖 cs.LG

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Cet article propose une extension théorique de l'apprentissage par renforcement hors ligne aux politiques paramétrées sur des espaces d'actions larges ou continus en surmontant les limitations des méthodes antérieures grâce à une analyse unifiant la descente de miroir, le gradient de politique naturel et l'apprentissage par imitation.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

What Is the Alignment Tax?

Cet article propose une théorie géométrique formalisant l'« alignement tax » comme une fonction de l'angle entre les sous-espaces de sécurité et de capacité, établissant une frontière de Pareto récursive et une loi d'échelle qui décompose ce compromis en une composante irréductible et un résidu décroissant avec la dimension du modèle.

Robin Young2026-03-04📈 econ

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Entraîné sur les dossiers de 1,8 million de patients danois, un modèle de langage a démontré une capacité à automatiser le codage médical et a révélé une sous-déclaration systématique de diagnostics secondaires, soulignant l'importance de ces outils pour améliorer la surveillance épidémiologique et la prise en charge des comorbidités.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Le papier présente CoPeP, un nouveau benchmark évaluant l'apprentissage continu sur les modèles de langage protéiques en utilisant une décennie de données UniProt, et démontre que l'exploitation des métadonnées temporelles et de méthodes d'apprentissage continu améliore significativement les performances par rapport à l'entraînement classique.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

IDER: IDempotent Experience Replay for Reliable Continual Learning

Ce papier propose IDER, une méthode de réapprentissage continu novatrice basée sur la propriété d'idempotence qui améliore la fiabilité des prédictions, réduit l'oubli catastrophique et augmente la précision tout en étant compatible avec les méthodes de réentraînement existantes.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Ce papier présente BornoViT, un modèle Vision Transformer léger et efficace conçu pour classifier les caractères et chiffres manuscrits bengalis avec une grande précision tout en minimisant les besoins computationnels, le rendant idéal pour les environnements aux ressources limitées.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Cet article établit un cadre théorique unifié démontrant que l'optimisation de politique par rapport de groupe (GRPO) est une statistique en U, ce qui permet de prouver son équivalence asymptotique avec un algorithme oracle et de dériver une loi d'échelle universelle pour la sélection de la taille de groupe optimale.

Hongyi Zhou, Kai Ye, Erhan Xu + 4 more2026-03-04📊 stat

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

En appliquant la Théorie de l'Apprentissage Singulier (SLT), cette étude interprète le phénomène de « grokking » comme une transition de phase entre des bassins de solutions compétitifs dans les réseaux quadratiques, démontrant que le coefficient d'apprentissage local sert d'indicateur fiable pour suivre la dynamique de généralisation et prédire ces transitions.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

← Précédent Suivant →