cs.LG articles | Gist.Science

Wasserstein Proximal Policy Gradient

Cet article présente la méthode WPPG, un algorithme de gradient de politique basé sur la géométrie de Wasserstein qui évite le calcul de la densité du logarithme de la politique grâce à une approche par fractionnement d'opérateurs, garantissant ainsi une convergence linéaire globale et des performances compétitives sur des tâches de contrôle continu.

Zhaoyu Zhu, Shuhan Zhang, Rui Gao + 1 more2026-03-04🤖 cs.LG

Towards Parameter-Free Temporal Difference Learning

Cet article propose une méthode d'apprentissage par différence temporelle (TD) sans paramètres, utilisant un calendrier de pas exponentiel qui garantit des taux de convergence optimaux dans les régimes d'échantillonnage i.i.d. et markovien sans nécessiter la connaissance de quantités dépendantes du problème ni de modifications non standard.

Yunxiang Li, Mark Schmidt, Reza Babanezhad + 1 more2026-03-04🤖 cs.LG

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems

Cet article propose une méthode d'optimisation conjointe de l'allocation des ressources et du partitionnement des modèles pour des systèmes d'inférence collaborative résistants au brouillage, visant à maximiser le compromis entre délai et précision grâce à un algorithme d'optimisation alternée.

Mengru Wu, Jiawei Li, Jiaqi Wei + 3 more2026-03-04⚡ eess

Low-Degree Method Fails to Predict Robust Subspace Recovery

Cet article démontre que la méthode des polynômes de faible degré échoue à prédire la tractabilité computationnelle d'un problème de récupération de sous-espace robuste, car elle ne détecte pas la présence d'un algorithme polynomial efficace fondé sur des propriétés d'anti-concentration, remettant ainsi en question l'universalité de ce cadre prédictif.

He Jia, Aravindan Vijayaraghavan2026-03-04📊 stat

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Ce papier présente GPUTOK, un tokeniseur BPE au niveau des bytes accéléré par GPU qui, tout en garantissant une qualité de sortie équivalente aux solutions CPU, offre une accélération significative (jusqu'à 7,6 fois) pour le traitement de longs contextes textuels.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Le papier propose SUN, une approche novatrice qui permet le partage du module de décodage entre différents grands modèles de langage en désagrégeant les tâches de préremplissage et de décodage, optimisant ainsi l'utilisation des GPU et augmentant le débit jusqu'à deux fois sans sacrifier la précision.

Sunghyeon Woo, Ahreum Seo, Jaegwang Lee + 6 more2026-03-04🤖 cs.AI

Heterogeneous Agent Collaborative Reinforcement Learning

Le papier présente HACRL, un nouveau paradigme d'apprentissage par renforcement collaboratif permettant à des agents hétérogènes de partager des trajectoires vérifiées pour une optimisation mutuelle sans coordination lors de l'inférence, et propose l'algorithme HACPO qui améliore significativement les performances de tous les agents tout en réduisant les coûts d'échantillonnage.

Zhixia Zhang, Zixuan Huang, Xin Xia + 7 more2026-03-04🤖 cs.LG

Combinatorial Sparse PCA Beyond the Spiked Identity Model

Cet article présente la première méthode combinatoire pour l'ACP parcimonieuse qui garantit une convergence globale et fonctionne avec des preuves théoriques pour des matrices de covariance générales, dépassant ainsi les limitations des algorithmes existants qui ne sont validés que sous le modèle d'identité épinglée.

Syamantak Kumar, Purnamrita Sarkar, Kevin Tian + 1 more2026-03-04📊 stat

Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

Ce papier propose DACER-F, une méthode d'apprentissage par renforcement qui intègre le flow matching et la dynamique de Langevin pour générer des politiques de conduite autonome en temps réel avec une latence d'inférence ultra-faible tout en surpassant les performances des algorithmes existants.

Tianze Zhu, Yinuo Wang, Wenjun Zou + 6 more2026-03-04🤖 cs.LG

Detecting Structural Heart Disease from Electrocardiograms via a Generalized Additive Model of Interpretable Foundation-Model Predictors

Cette étude propose un cadre interprétable combinant des prédicteurs de modèles fondationnels ECG à un modèle additif généralisé pour détecter les maladies cardiaques structurelles, surpassant les modèles de deep learning actuels en performance et en transparence clinique.

Ya Zhou, Zhaohong Sun, Tianxiang Hao + 1 more2026-03-04📊 stat

Same Error, Different Function: The Optimizer as an Implicit Prior in Financial Time Series

Cette étude démontre que, dans le contexte de la prévision de la volatilité financière où les modèles sont sous-spécifiés, le choix de l'optimiseur agit comme un biais inductif déterminant qui façonne les fonctions apprises et les conséquences décisionnelles, même lorsque la précision prédictive reste identique.

Federico Vittorio Cortesi, Giuseppe Iannone, Giulia Crippa + 2 more2026-03-04💰 q-fin

Implicit Bias in Deep Linear Discriminant Analysis

Cet article présente une analyse théorique initiale de la régularisation implicite induite par l'analyse discriminante linéaire profonde (Deep LDA) sur des réseaux linéaires diagonaux, démontrant que l'architecture transforme les mises à jour de gradient additives en mises à jour multiplicatives conservant automatiquement une quasi-norme spécifique.

Jiawen Li2026-03-04📊 stat

Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation

Le papier présente Uni-Skill, un cadre unifié qui permet l'évolution automatique d'une bibliothèque de compétences pour la manipulation robotique en intégrant une planification consciente des compétences et un référentiel hiérarchique de démonstrations extraites de vidéos, surpassant ainsi les approches existantes en généralisation zéro-shot et en adaptabilité.

Senwei Xie, Yuntian Zhang, Ruiping Wang + 1 more2026-03-04🤖 cs.LG

Post Hoc Extraction of Pareto Fronts for Continuous Control

Le papier présente MAPEX, une méthode d'apprentissage par renforcement multi-objectif hors ligne qui extrait efficacement des fronts de Pareto à partir de politiques spécialisées pré-entraînées en réutilisant leurs critiques et tampons de replay, réduisant ainsi drastiquement les coûts d'échantillonnage par rapport aux approches existantes.

Raghav Thakar, Gaurav Dixit, Kagan Tumer2026-03-04🤖 cs.LG

MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks

Ce papier présente MASPOB, un cadre d'optimisation de prompts efficace en échantillons pour les systèmes multi-agents, qui combine des bandits à confiance supérieure (UCB) et des réseaux de neurones graphiques (GNN) pour surmonter les défis de coût d'évaluation, de couplage topologique et d'explosion combinatoire.

Zhi Hong, Qian Zhang, Jiahang Sun + 5 more2026-03-04🤖 cs.AI

Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees

Cet article propose un cadre de calcul hétérogène sans réentraînement qui alloue les experts sensibles au bruit et les modules d'attention à un traitement numérique, tandis que le reste des experts est exécuté sur du matériel de calcul analogique en mémoire, garantissant ainsi la robustesse et l'efficacité des modèles MoE à grande échelle.

Mohammed Nowaz Rabbani Chowdhury, Hsinyu Tsai, Geoffrey W. Burr + 3 more2026-03-04🤖 cs.AI

SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety

Le papier présente SaFeR-ToolKit, une approche qui formalise la prise de décision de sécurité des modèles vision-langage en un protocole vérifiable via l'appel d'outils virtuels et un entraînement en trois étapes, améliorant ainsi significativement la sécurité et le raisonnement tout en préservant les capacités générales.

Zixuan Xu, Tiancheng He, Huahui Yi + 7 more2026-03-04🤖 cs.LG

The Vienna 4G/5G Drive-Test Dataset

Cet article présente le jeu de données de tests de conduite de Vienne, une ressource open source à l'échelle urbaine combinant des mesures passives et actives de réseaux 4G et 5G avec des modèles géographiques détaillés pour faciliter l'apprentissage automatique, la modélisation de propagation et l'optimisation des réseaux mobiles.

Wilfried Wiedner, Lukas Eller, Mariam Mussbah + 4 more2026-03-04⚡ eess

Convex and Non-convex Federated Learning with Stale Stochastic Gradients: Diminishing Step Size is All You Need

Cet article propose un cadre général pour l'apprentissage fédéré avec des gradients stochastiques retardés, démontrant qu'une taille de pas décroissante prédéfinie suffit à atteindre les taux de convergence optimaux pour les objectifs convexes et non convexes, sans nécessiter de tailles de pas adaptatives.

Xinran Zheng, Tara Javidi, Behrouz Touri2026-03-04🤖 cs.LG

← Précédent Suivant →