cs.LG articles | Gist.Science

Parallel Token Prediction for Language Models

Ce papier propose le cadre général de prédiction de tokens parallèles (PTP), qui accélère le décodage des modèles de langage en rendant les futurs tokens déterministes via des variables d'entrée aléatoires, permettant ainsi de générer plusieurs tokens en une seule passe et d'obtenir un gain de vitesse de 2,4 fois.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Cet article présente un cadre d'apprentissage automatique basé sur les réseaux de Kolmogorov-Arnold avec processus gaussiens variationnels épars (SVGP-KAN) pour reconstruire avec précision et quantifier les incertitudes des champs d'écoulement à partir de mesures de vélocimetry temporellement éparses, surpassant les méthodes classiques en offrant des estimations d'incertitude bien calibrées.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Cette étude démontre que l'intégration des signatures d'impédance électrique cellulaire avec des algorithmes d'apprentissage automatique, en particulier la forêt aléatoire, permet de prédire la malignité cellulaire avec une précision d'environ 90 %, ouvrant la voie à de nouveaux outils de diagnostic.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Ce papier présente le Spectral Sphere Optimizer (SSO), un nouvel algorithme d'optimisation intégré à Megatron qui impose des contraintes spectrales strictes pour aligner pleinement l'entraînement avec la paramétrisation $\mu$ P, surpassant ainsi AdamW et Muon en termes de convergence et de stabilité sur diverses architectures de grands modèles.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Cet article présente le cadre Behavioral Profiling Ensemble (BPE), une approche d'intégration centrée sur le modèle qui, en construisant des profils comportementaux intrinsèques pour chaque apprenant, surpasse les méthodes d'ensemble dynamiques existantes en améliorant la précision prédictive tout en réduisant les coûts computationnels et de stockage.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE est une méthode qui permet de stocker de multiples experts sur des appareils à ressources limitées en remplaçant le stockage linéaire de matrices de poids indépendantes par une représentation géométrique sub-linéaire basée sur des rotations appliquées à un prototype ternaire partagé, réduisant ainsi la consommation mémoire de 150 fois sans perte significative de précision.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Ce papier présente Yuan3.0 Ultra, un modèle de langage open-source de type MoE orienté entreprise qui utilise l'algorithme de pruning d'experts adaptatif par couche (LAEP) pour améliorer l'efficacité du pré-entraînement et obtenir des performances de pointe sur des tâches spécialisées tout en réduisant la taille totale du modèle.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Ce papier présente le Self-Distilled Reasoner, un cadre d'auto-distillation sur politique où un seul modèle joue à la fois le rôle d'enseignant (conditionné sur des traces de raisonnement privilégiées) et d'élève (ne voyant que la question), permettant d'améliorer les capacités de raisonnement mathématique avec une efficacité tokenique bien supérieure aux méthodes d'apprentissage par renforcement.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Cet article propose une méthode évolutive pour la prédiction du signe des liens dans les graphes signés, qui modélise directement les dépendances statistiques entre les arêtes à l'aide d'une copule gaussienne tout en surmontant les limitations de complexité computationnelle grâce à une représentation factorisée de la matrice de corrélation et une reformulation de la distribution de probabilité conditionnelle.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Cet article établit des garanties de convergence plus précises et rapides pour l'optimiseur Muon en utilisant une analyse directe et simplifiée qui s'affranchit des hypothèses restrictives des travaux antérieurs, offrant ainsi une caractérisation théorique améliorée applicable à une plus large gamme de problèmes d'optimisation non convexe.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

L'article présente Latent-IMH, une méthode d'échantillonnage bayésien efficace pour les problèmes inverses linéaires avec des opérateurs coûteux, qui génère des variables latentes via une approximation rapide avant de les affiner avec l'opérateur exact, surpassant ainsi des méthodes de l'état de l'art comme NUTS en termes d'efficacité computationnelle.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Ce papier présente ME-POIs, un cadre novateur qui enrichit les représentations des points d'intérêt en fusionnant des données textuelles avec des schémas de mobilité humaine à grande échelle pour capturer non seulement l'identité d'un lieu, mais aussi sa fonction réelle, surpassant ainsi les approches existantes sur plusieurs tâches d'enrichissement cartographique.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Ce papier propose un cadre variationnel interprétant les couches des transformers comme des itérations d'algorithmes d'optimisation, permettant de concevoir une architecture accélérée par Nesterov qui surpasse les modèles de base sur des tâches de génération de texte.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Ce papier propose MiTA, une nouvelle méthode d'attention efficace qui unifie les approches existantes et améliore l'évolutivité des séquences longues en compressant les poids rapides via une stratégie de routage et de sélection des k meilleures activations.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Le papier présente VIP, une stratégie d'allocation de rollouts adaptative qui optimise l'efficacité de l'apprentissage par renforcement en ligne en attribuant dynamiquement le budget de calcul aux prompts les plus informatifs pour minimiser la variance du gradient, surpassant ainsi les méthodes d'allocation uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Cet article propose une nouvelle approche de la prévision des séries temporelles, appelée « prévision agentielle », qui dépasse le paradigme traditionnel centré sur le modèle en la reformulant comme un processus dynamique intégrant perception, planification, action, réflexion et mémoire pour permettre une adaptation continue et une interaction avec des outils.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Cet article démontre que les vecteurs de pilotage dans les grands modèles de langage sont fondamentalement non identifiables, car des perturbations orthogonales peuvent produire des effets comportementaux équivalents, révélant ainsi des limites inhérentes à l'interprétabilité de ces interventions.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduit une interface de raisonnement latent qui découple le calcul chimique de la génération textuelle, permettant aux modèles d'effectuer des inférences complexes dans un espace continu pour obtenir des performances supérieures et une accélération significative par rapport aux méthodes traditionnelles basées sur la chaîne de pensée explicite.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

← Précédent Suivant →