Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Cet article présente A3RL, une méthode d'apprentissage par renforcement en ligne qui intègre des données hors ligne grâce à une stratégie d'échantillonnage active et consciente de la confiance, surmontant ainsi les défis de l'oubli catastrophique et de l'efficacité des échantillons pour surpasser les techniques existantes.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Ce papier propose le cadre Texts as Time Series (TaTS), qui exploite les propriétés périodiques des textes associés aux séries temporelles pour améliorer les performances de prévision et d'imputation des modèles existants sans modifier leur architecture.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

L'article propose OrthoGrad, une nouvelle méthode d'effacement de machine learning qui projette le gradient des données à oublier sur le sous-espace orthogonal aux gradients d'un petit ensemble de rétention, permettant ainsi d'éliminer l'influence des données problématiques sans compromettre les performances du modèle même lorsque l'ensemble de données d'entraînement complet n'est pas disponible.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Cette étude présente GlucoLens, une solution d'apprentissage automatique explicable alimentée par des modèles de langage qui, en exploitant des données de wearables et de régimes alimentaires, prédit avec précision les pics de glycémie postprandiale et propose des voies de traitement comportemental personnalisées pour prévenir l'hyperglycémie.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

MUSS: Multilevel Subset Selection for Relevance and Diversity

Ce papier propose MUSS, une nouvelle méthode multilevel pour la sélection de sous-ensembles pertinents et diversifiés qui améliore significativement la précision et la vitesse par rapport aux approches existantes dans des applications comme les systèmes de recommandation et la génération augmentée par récupération (RAG), tout en offrant une garantie théorique d'approximation constante.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Ce papier présente le modèle de récompense de processus EDU-PRM, une approche novatrice qui utilise l'incertitude par entropie pour segmenter automatiquement les étapes de raisonnement sans annotations manuelles, surpassant les modèles de référence sur ProcessBench tout en réduisant considérablement les besoins en données d'entraînement et en consommation de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Cette étude démontre que l'extraction de caractéristiques linguistiques et cognitives par des modèles de langage de grande taille (LLM) pour alimenter des algorithmes d'apprentissage automatique en arbre permet de prédire la difficulté des items d'évaluation avec une précision supérieure à celle des estimations directes par LLM, offrant ainsi une alternative efficace aux tests de terrain coûteux.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Ce papier présente StablePCA, un cadre d'apprentissage robuste aux distributions pour l'extraction de représentations partagées à partir de données multi-sources, en surmontant les défis d'optimisation non convexe grâce à une relaxation convexe résolue par un algorithme Mirror-Prox avec des garanties de convergence et de précision.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Cet article propose un cadre d'optimisation de politique hors ligne individualisé pour des processus de décision markoviens hétérogènes, introduisant un algorithme nommé P4L qui garantit une convergence rapide du regret grâce à l'estimation de fonctions Q individuelles via des variables latentes, tout en surpassant les méthodes existantes sur des données simulées et réelles.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG