cs.LG articles | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Cet article présente A3RL, une méthode d'apprentissage par renforcement en ligne qui intègre des données hors ligne grâce à une stratégie d'échantillonnage active et consciente de la confiance, surmontant ainsi les défis de l'oubli catastrophique et de l'efficacité des échantillons pour surpasser les techniques existantes.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Ce papier propose le cadre Texts as Time Series (TaTS), qui exploite les propriétés périodiques des textes associés aux séries temporelles pour améliorer les performances de prévision et d'imputation des modèles existants sans modifier leur architecture.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

L'article présente LaVCa, une méthode innovante utilisant des modèles de langage pour générer des légendes naturelles précises décrivant la sélectivité des voxels du cortex visuel, surpassant ainsi les approches précédentes en révélant des différenciations fonctionnelles fines et des représentations de concepts multiples.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Cet article propose le cadre COD (Clustering-On-Difficulty), qui améliore la prédiction des performances des grands modèles de langage sur des tâches en aval en regroupant les tâches selon leurs caractéristiques de difficulté pour établir des lois d'échelle stables et extrapoler avec précision les résultats globaux.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Cette étude propose une méthode de classification des sous-types de gliomes atteignant une précision de 99,25 % en fusionnant des images IRM multimodales prétraitées via une architecture UNET 2D/3D et une technique de moyenne pondérée, puis en les soumettant à un modèle ResNet50.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Cet article propose LOOP, une nouvelle méthode d'apprentissage par renforcement pour le fine-tuning des modèles de diffusion texte-à-image, qui combine les techniques de réduction de variance de REINFORCE avec la robustesse de PPO afin d'optimiser le compromis entre efficacité des échantillons et performance finale.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

L'article propose OrthoGrad, une nouvelle méthode d'effacement de machine learning qui projette le gradient des données à oublier sur le sous-espace orthogonal aux gradients d'un petit ensemble de rétention, permettant ainsi d'éliminer l'influence des données problématiques sans compromettre les performances du modèle même lorsque l'ensemble de données d'entraînement complet n'est pas disponible.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Cette étude présente GlucoLens, une solution d'apprentissage automatique explicable alimentée par des modèles de langage qui, en exploitant des données de wearables et de régimes alimentaires, prédit avec précision les pics de glycémie postprandiale et propose des voies de traitement comportemental personnalisées pour prévenir l'hyperglycémie.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Cet article présente IMPACT, un cadre de planification de mouvement innovant qui utilise des modèles vision-langage pour générer des cartes de coût anisotropes et permettre à un robot de trouver des trajectoires riches en contacts sûrs et efficaces dans des environnements encombrés.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Ce papier présente les équivalences prototypes lisses (SPE), un cadre basé sur des réseaux de neurones inversibles qui permet de caractériser et de classifier les comportements dynamiques non linéaires à partir de mesures éparses et bruitées en les associant à des dynamiques prototypes, sans nécessiter d'équations explicites.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Ce papier propose MUSS, une nouvelle méthode multilevel pour la sélection de sous-ensembles pertinents et diversifiés qui améliore significativement la précision et la vitesse par rapport aux approches existantes dans des applications comme les systèmes de recommandation et la génération augmentée par récupération (RAG), tout en offrant une garantie théorique d'approximation constante.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Ce papier présente le modèle de récompense de processus EDU-PRM, une approche novatrice qui utilise l'incertitude par entropie pour segmenter automatiquement les étapes de raisonnement sans annotations manuelles, surpassant les modèles de référence sur ProcessBench tout en réduisant considérablement les besoins en données d'entraînement et en consommation de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Cette étude améliore la prédiction du syndrome métabolique en introduisant le cadre hybride MetaBoost pour optimiser l'équilibrage des données et en utilisant une analyse contrefactuelle pour identifier la glycémie et les triglycérides comme facteurs de risque modifiables les plus critiques.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Cette étude démontre que l'extraction de caractéristiques linguistiques et cognitives par des modèles de langage de grande taille (LLM) pour alimenter des algorithmes d'apprentissage automatique en arbre permet de prédire la difficulté des items d'évaluation avec une précision supérieure à celle des estimations directes par LLM, offrant ainsi une alternative efficace aux tests de terrain coûteux.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Cet article présente le premier agent de course autonome basé sur la vision capable d'atteindre un niveau de champion dans Gran Turismo 7, en utilisant uniquement les données de la caméra embarquée et des capteurs du véhicule pour surpasser les pilotes intégrés au jeu.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Ce papier propose un cadre d'interprétabilité basé sur la réponse linéaire qui traite les réseaux de neurones comme des systèmes statistiques bayésiens, permettant d'identifier des modules fonctionnels dans un petit modèle de langage grâce à une matrice de susceptibilité factorisée en contributions par token.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Cet article propose HetGL2R, un cadre d'apprentissage par graphes hétérogènes intégrant les flux origine-destination et les itinéraires pour améliorer la hiérarchisation des segments routiers en modélisant efficacement les dépendances spatiales à longue portée et les similarités fonctionnelles.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Cet article propose un cadre unifié et une taxonomie de près de 60 benchmarks pour évaluer les modèles de langage et les agents autonomes, tout en examinant leurs architectures, leurs applications réelles, leurs protocoles de collaboration et les orientations futures de la recherche.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Ce papier présente StablePCA, un cadre d'apprentissage robuste aux distributions pour l'extraction de représentations partagées à partir de données multi-sources, en surmontant les défis d'optimisation non convexe grâce à une relaxation convexe résolue par un algorithme Mirror-Prox avec des garanties de convergence et de précision.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Cet article propose un cadre d'optimisation de politique hors ligne individualisé pour des processus de décision markoviens hétérogènes, introduisant un algorithme nommé P4L qui garantit une convergence rapide du regret grâce à l'estimation de fonctions Q individuelles via des variables latentes, tout en surpassant les méthodes existantes sur des données simulées et réelles.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Précédent Suivant →