cs.LG articles | Gist.Science

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

L'article propose OrthoGrad, une nouvelle méthode d'effacement de machine learning qui projette le gradient des données à oublier sur le sous-espace orthogonal aux gradients d'un petit ensemble de rétention, permettant ainsi d'éliminer l'influence des données problématiques sans compromettre les performances du modèle même lorsque l'ensemble de données d'entraînement complet n'est pas disponible.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Cette étude présente GlucoLens, une solution d'apprentissage automatique explicable alimentée par des modèles de langage qui, en exploitant des données de wearables et de régimes alimentaires, prédit avec précision les pics de glycémie postprandiale et propose des voies de traitement comportemental personnalisées pour prévenir l'hyperglycémie.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Cet article présente IMPACT, un cadre de planification de mouvement innovant qui utilise des modèles vision-langage pour générer des cartes de coût anisotropes et permettre à un robot de trouver des trajectoires riches en contacts sûrs et efficaces dans des environnements encombrés.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Ce papier présente les équivalences prototypes lisses (SPE), un cadre basé sur des réseaux de neurones inversibles qui permet de caractériser et de classifier les comportements dynamiques non linéaires à partir de mesures éparses et bruitées en les associant à des dynamiques prototypes, sans nécessiter d'équations explicites.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Ce papier propose MUSS, une nouvelle méthode multilevel pour la sélection de sous-ensembles pertinents et diversifiés qui améliore significativement la précision et la vitesse par rapport aux approches existantes dans des applications comme les systèmes de recommandation et la génération augmentée par récupération (RAG), tout en offrant une garantie théorique d'approximation constante.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Ce papier présente le modèle de récompense de processus EDU-PRM, une approche novatrice qui utilise l'incertitude par entropie pour segmenter automatiquement les étapes de raisonnement sans annotations manuelles, surpassant les modèles de référence sur ProcessBench tout en réduisant considérablement les besoins en données d'entraînement et en consommation de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Cette étude améliore la prédiction du syndrome métabolique en introduisant le cadre hybride MetaBoost pour optimiser l'équilibrage des données et en utilisant une analyse contrefactuelle pour identifier la glycémie et les triglycérides comme facteurs de risque modifiables les plus critiques.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Cette étude démontre que l'extraction de caractéristiques linguistiques et cognitives par des modèles de langage de grande taille (LLM) pour alimenter des algorithmes d'apprentissage automatique en arbre permet de prédire la difficulté des items d'évaluation avec une précision supérieure à celle des estimations directes par LLM, offrant ainsi une alternative efficace aux tests de terrain coûteux.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Cet article présente le premier agent de course autonome basé sur la vision capable d'atteindre un niveau de champion dans Gran Turismo 7, en utilisant uniquement les données de la caméra embarquée et des capteurs du véhicule pour surpasser les pilotes intégrés au jeu.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Ce papier propose un cadre d'interprétabilité basé sur la réponse linéaire qui traite les réseaux de neurones comme des systèmes statistiques bayésiens, permettant d'identifier des modules fonctionnels dans un petit modèle de langage grâce à une matrice de susceptibilité factorisée en contributions par token.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Cet article propose HetGL2R, un cadre d'apprentissage par graphes hétérogènes intégrant les flux origine-destination et les itinéraires pour améliorer la hiérarchisation des segments routiers en modélisant efficacement les dépendances spatiales à longue portée et les similarités fonctionnelles.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Cet article propose un cadre unifié et une taxonomie de près de 60 benchmarks pour évaluer les modèles de langage et les agents autonomes, tout en examinant leurs architectures, leurs applications réelles, leurs protocoles de collaboration et les orientations futures de la recherche.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Ce papier présente StablePCA, un cadre d'apprentissage robuste aux distributions pour l'extraction de représentations partagées à partir de données multi-sources, en surmontant les défis d'optimisation non convexe grâce à une relaxation convexe résolue par un algorithme Mirror-Prox avec des garanties de convergence et de précision.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Cet article propose un cadre d'optimisation de politique hors ligne individualisé pour des processus de décision markoviens hétérogènes, introduisant un algorithme nommé P4L qui garantit une convergence rapide du regret grâce à l'estimation de fonctions Q individuelles via des variables latentes, tout en surpassant les méthodes existantes sur des données simulées et réelles.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Cette étude applique l'interprétabilité mécanistique à la distillation de connaissances pour révéler comment les modèles étudiants réorganisent et compressent les circuits internes des enseignants, entraînant des changements computationnels significatifs malgré la préservation des comportements fonctionnels globaux.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Ce papier présente Ready2Unlearn, une approche proactive qui intègre la préparation à l'oubli machine directement durant la phase d'entraînement des modèles afin de faciliter et d'accélérer les futures demandes de suppression de données.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ce papier présente EgoDex, le plus grand ensemble de données à ce jour pour la manipulation dextre, constitué de 829 heures de vidéos egocentriques annotées avec des poses 3D des mains collectées via Apple Vision Pro, afin de pallier le manque de données à grande échelle et de faire progresser l'apprentissage par imitation en robotique.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Le papier présente FreeKV, un cadre d'optimisation conjointe algorithmique et système sans entraînement qui améliore l'efficacité de la récupération du cache KV pour l'inférence des grands modèles de langage, permettant des accélérations allant jusqu'à 13 fois par rapport aux méthodes de l'état de l'art tout en préservant une précision quasi parfaite.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Cet article propose la première approche théoriquement garantie pour l'apprentissage axé sur la décision en ligne dans des environnements dynamiques, en régularisant la fonction objectif et en utilisant des techniques de perturbation pour surmonter l'absence de gradients et la non-convexité, tout en établissant des bornes de regret et en validant l'efficacité de l'algorithme sur un problème de sac à dos.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Le papier présente Vid2World, une méthode générale qui transforme des modèles de diffusion vidéo pré-entraînés en modèles de monde interactifs en adaptant leur architecture pour la génération autoregressive et en intégrant un mécanisme de guidage causal pour améliorer le contrôle par les actions.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

← Précédent Suivant →