cs.LG articles | Gist.Science

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Cet article présente un robot assistif chirurgical à deux bras capable de livrer des instruments de manière autonome et sans collision en utilisant un modèle vision-langage pour interpréter les commandes verbales et un cadre d'optimisation quadratique pour éviter les obstacles en temps réel.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Ce papier propose VC-STaR, un cadre d'auto-amélioration pour les modèles vision-langage qui exploite des paires de questions visuelles contrastives pour atténuer les hallucinations et générer le nouveau jeu de données VisCoR-55K, améliorant ainsi significativement les capacités de raisonnement visuel des modèles.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Le papier présente SOLAR, un cadre de modélisation séquentielle pour les systèmes de recommandation qui utilise une attention optimisée par SVD pour réduire la complexité computationnelle tout en préservant la fonction softmax, permettant ainsi de gérer des séquences de comportement massives et d'améliorer significativement les performances en ligne chez Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

EdgeFLow: Serverless Federated Learning via Sequential Model Migration in Edge Networks

L'article présente EdgeFLow, un cadre d'apprentissage fédéré innovant qui élimine les goulots d'étranglement de communication en remplaçant les serveurs cloud par une migration séquentielle de modèles entre les stations de base en périphérie, tout en garantissant la convergence théorique et en réduisant significativement les coûts de communication.

Yuchen Shi, Qijun Hou, Pingyi Fan + 1 more2026-03-04🤖 cs.LG

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator est une nouvelle architecture d'évaluation qui améliore l'efficacité et la précision des systèmes générateur-évaluateur en permettant le partage d'informations entre séquences au sein d'une seule passe avant, réduisant ainsi la complexité computationnelle et ayant déjà généré des gains de revenus significatifs lors de son déploiement sur la plateforme Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

Wasserstein Proximal Policy Gradient

Cet article présente la méthode WPPG, un algorithme de gradient de politique basé sur la géométrie de Wasserstein qui évite le calcul de la densité du logarithme de la politique grâce à une approche par fractionnement d'opérateurs, garantissant ainsi une convergence linéaire globale et des performances compétitives sur des tâches de contrôle continu.

Zhaoyu Zhu, Shuhan Zhang, Rui Gao + 1 more2026-03-04🤖 cs.LG

Towards Parameter-Free Temporal Difference Learning

Cet article propose une méthode d'apprentissage par différence temporelle (TD) sans paramètres, utilisant un calendrier de pas exponentiel qui garantit des taux de convergence optimaux dans les régimes d'échantillonnage i.i.d. et markovien sans nécessiter la connaissance de quantités dépendantes du problème ni de modifications non standard.

Yunxiang Li, Mark Schmidt, Reza Babanezhad + 1 more2026-03-04🤖 cs.LG

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems

Cet article propose une méthode d'optimisation conjointe de l'allocation des ressources et du partitionnement des modèles pour des systèmes d'inférence collaborative résistants au brouillage, visant à maximiser le compromis entre délai et précision grâce à un algorithme d'optimisation alternée.

Mengru Wu, Jiawei Li, Jiaqi Wei + 3 more2026-03-04⚡ eess

Low-Degree Method Fails to Predict Robust Subspace Recovery

Cet article démontre que la méthode des polynômes de faible degré échoue à prédire la tractabilité computationnelle d'un problème de récupération de sous-espace robuste, car elle ne détecte pas la présence d'un algorithme polynomial efficace fondé sur des propriétés d'anti-concentration, remettant ainsi en question l'universalité de ce cadre prédictif.

He Jia, Aravindan Vijayaraghavan2026-03-04📊 stat

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Ce papier présente GPUTOK, un tokeniseur BPE au niveau des bytes accéléré par GPU qui, tout en garantissant une qualité de sortie équivalente aux solutions CPU, offre une accélération significative (jusqu'à 7,6 fois) pour le traitement de longs contextes textuels.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Le papier propose SUN, une approche novatrice qui permet le partage du module de décodage entre différents grands modèles de langage en désagrégeant les tâches de préremplissage et de décodage, optimisant ainsi l'utilisation des GPU et augmentant le débit jusqu'à deux fois sans sacrifier la précision.

Sunghyeon Woo, Ahreum Seo, Jaegwang Lee + 6 more2026-03-04🤖 cs.AI

Heterogeneous Agent Collaborative Reinforcement Learning

Le papier présente HACRL, un nouveau paradigme d'apprentissage par renforcement collaboratif permettant à des agents hétérogènes de partager des trajectoires vérifiées pour une optimisation mutuelle sans coordination lors de l'inférence, et propose l'algorithme HACPO qui améliore significativement les performances de tous les agents tout en réduisant les coûts d'échantillonnage.

Zhixia Zhang, Zixuan Huang, Xin Xia + 7 more2026-03-04🤖 cs.LG

Combinatorial Sparse PCA Beyond the Spiked Identity Model

Cet article présente la première méthode combinatoire pour l'ACP parcimonieuse qui garantit une convergence globale et fonctionne avec des preuves théoriques pour des matrices de covariance générales, dépassant ainsi les limitations des algorithmes existants qui ne sont validés que sous le modèle d'identité épinglée.

Syamantak Kumar, Purnamrita Sarkar, Kevin Tian + 1 more2026-03-04📊 stat

Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

Ce papier propose DACER-F, une méthode d'apprentissage par renforcement qui intègre le flow matching et la dynamique de Langevin pour générer des politiques de conduite autonome en temps réel avec une latence d'inférence ultra-faible tout en surpassant les performances des algorithmes existants.

Tianze Zhu, Yinuo Wang, Wenjun Zou + 6 more2026-03-04🤖 cs.LG

Detecting Structural Heart Disease from Electrocardiograms via a Generalized Additive Model of Interpretable Foundation-Model Predictors

Cette étude propose un cadre interprétable combinant des prédicteurs de modèles fondationnels ECG à un modèle additif généralisé pour détecter les maladies cardiaques structurelles, surpassant les modèles de deep learning actuels en performance et en transparence clinique.

Ya Zhou, Zhaohong Sun, Tianxiang Hao + 1 more2026-03-04📊 stat

Same Error, Different Function: The Optimizer as an Implicit Prior in Financial Time Series

Cette étude démontre que, dans le contexte de la prévision de la volatilité financière où les modèles sont sous-spécifiés, le choix de l'optimiseur agit comme un biais inductif déterminant qui façonne les fonctions apprises et les conséquences décisionnelles, même lorsque la précision prédictive reste identique.

Federico Vittorio Cortesi, Giuseppe Iannone, Giulia Crippa + 2 more2026-03-04💰 q-fin

Implicit Bias in Deep Linear Discriminant Analysis

Cet article présente une analyse théorique initiale de la régularisation implicite induite par l'analyse discriminante linéaire profonde (Deep LDA) sur des réseaux linéaires diagonaux, démontrant que l'architecture transforme les mises à jour de gradient additives en mises à jour multiplicatives conservant automatiquement une quasi-norme spécifique.

Jiawen Li2026-03-04📊 stat

Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation

Le papier présente Uni-Skill, un cadre unifié qui permet l'évolution automatique d'une bibliothèque de compétences pour la manipulation robotique en intégrant une planification consciente des compétences et un référentiel hiérarchique de démonstrations extraites de vidéos, surpassant ainsi les approches existantes en généralisation zéro-shot et en adaptabilité.

Senwei Xie, Yuntian Zhang, Ruiping Wang + 1 more2026-03-04🤖 cs.LG

Post Hoc Extraction of Pareto Fronts for Continuous Control

Le papier présente MAPEX, une méthode d'apprentissage par renforcement multi-objectif hors ligne qui extrait efficacement des fronts de Pareto à partir de politiques spécialisées pré-entraînées en réutilisant leurs critiques et tampons de replay, réduisant ainsi drastiquement les coûts d'échantillonnage par rapport aux approches existantes.

Raghav Thakar, Gaurav Dixit, Kagan Tumer2026-03-04🤖 cs.LG

← Précédent Suivant →