cs.LG articles | Gist.Science

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

En modélisant le boucle externe de PPO comme une optimisation stochastique, cette étude démontre que l'augmentation massive du nombre d'environnements parallèles (jusqu'à un million) permet de réduire le bruit du gradient et de prévenir la stagnation de l'apprentissage, permettant ainsi une amélioration monotone des performances jusqu'à un trillion de transitions.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Ce papier améliore l'analyse de Klivans et al. en démontrant que le degré polynomial nécessaire pour l'apprentissage agnostique de classes de concepts à surface de Gauss bornée est de $d = \tilde O (\Gamma^2 / \varepsilon^2)$ , établissant ainsi des bornes quasi-optimales pour l'apprentissage des fonctions de seuil polynomial dans le modèle des requêtes statistiques.

Lucas Pesenti, Lucas Slot, Manuel Wiedmer2026-03-09🤖 cs.LG

Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging

Cet article démontre que la dynamique de Langevin combinée à la moyenne des itérés permet de récupérer une direction cachée dans des modèles à haute dimension avec un nombre d'échantillons optimal de l'ordre de $d^{k^\star/2}$ , contournant ainsi les limites précédentes sans nécessiter de lissage explicite du paysage d'optimisation.

Stanley Wei, Alex Damian, Jason D. Lee2026-03-09🤖 cs.LG

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Latent Diffusion-Based 3D Molecular Recovery from Vibrational Spectra

Ce papier présente IR-GeoDiff, un modèle de diffusion latente qui reconstruit les géométries moléculaires tridimensionnelles à partir de spectres infrarouges en intégrant les informations spectrales dans les représentations des nœuds et des arêtes, comblant ainsi le fossé entre les données spectrales et la structure 3D.

Wenjin Wu, Aleš Leonardis, Linjiang Chen, Jianbo Jiao2026-03-09🤖 cs.LG

Dynamic Momentum Recalibration in Online Gradient Learning

Cet article propose SGDF, un optimiseur inspiré du filtrage linéaire optimal qui améliore l'apprentissage par gradient stochastique en recalibrant dynamiquement les coefficients de momentum pour équilibrer biais et variance, surpassant ainsi les méthodes conventionnelles sur divers benchmarks.

Zhipeng Yao, Rui Yu, Guisong Chang, Ying Li, Yu Zhang, Dazhou Li2026-03-09🤖 cs.LG

Diffusion Language Models Are Natively Length-Aware

Ce papier propose un mécanisme zéro-shot permettant aux modèles de langage par diffusion d'estimer et de réduire dynamiquement la fenêtre de contexte avant la génération, offrant ainsi des économies de calcul substantielles sans compromettre les performances sur diverses tâches.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Cet article propose DQE, une nouvelle métrique d'évaluation pour la détection d'anomalies dans les séries temporelles qui, en s'appuyant sur une partition sémantique des événements et une agrégation sur tout le spectre des seuils, surmonte les biais et les incohérences des mesures existantes pour offrir une évaluation plus stable, discriminative et interprétable.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Partial Policy Gradients for RL in LLMs

Cet article propose une méthode de gradients de politique partielle pour l'apprentissage par renforcement dans les LLM, qui optimise un sous-ensemble de récompenses futures afin d'apprendre des politiques plus fiables et d'adapter différents niveaux de planification à des problèmes d'alignement conversationnel.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Ce papier démontre que les graphes de codage prédictif constituent un sur-ensemble mathématique des réseaux de neurones à propagation avant, renforçant ainsi leur pertinence dans le domaine de l'apprentissage automatique et la notion de topologie des réseaux neuronaux.

Björn van Zwol2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Cette étude démontre que l'application de perturbations d'entrée structurées, telles que le bruit de Perlin, aux réseaux de neurones graphiques permet de générer des prévisions probabilistes bien calibrées de la température de surface de la mer dans la région des îles Canaries sans coût de formation supplémentaire, tout en maintenant une compétence déterministe équivalente à celle d'un modèle unique.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Le papier présente OMEGA, une méthode de recherche apprise généralisable à n'importe quel K qui, en s'entraînant uniquement sur K=1 et en utilisant un raffinement dynamique, surpasse les méthodes existantes en termes de latence et de temps de prétraitement tout en maintenant une haute précision pour des requêtes multi-K.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Cet article propose un cadre en deux étapes pour l'apprentissage de similarités entre écritures, combinant un apprentissage contrastif supervisé sur des alphabets inventés et une distillation non supervisée vers des scripts historiques afin de découvrir des similarités latentes sans dépendre de relations évolutives certifiées.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Random Quadratic Form on a Sphere: Synchronization by Common Noise

Cet article introduit le modèle de Forme Quadratique Aléatoire (RQF) pour démontrer que le bruit commun suffit à synchroniser les dynamiques et à expliquer le regroupement des tokens dans les transformers, même en l'absence de mécanisme d'auto-attention.

Maximilian Engel, Anna Shalova2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Cette étude démontre que l'intégration de l'analyse topologique des données (TDA) appliquée aux séries temporelles de dégagement du pied, combinée à l'apprentissage automatique, améliore significativement le diagnostic différentiel entre la maladie de Parkinson idiopathique et le parkinsonisme vasculaire.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Cet article présente FedSCS-XGB, un protocole d'apprentissage automatique distribué basé sur XGBoost pour la surveillance continue de la santé, qui permet d'atteindre des performances quasi équivalentes à l'entraînement centralisé tout en préservant la confidentialité des données des capteurs portables.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Cet article démontre que le flot de gradient sur les modèles softmax à valeurs polarise intrinsèquement les sorties vers des solutions à faible entropie, offrant ainsi une explication théorique à des phénomènes empiriques des transformateurs tels que les « attention sinks » et les activations massives.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

Cet article propose la méthode SPPCSO, une approche d'estimation pénalisée adaptative qui intègre la régression en composantes principales et la régularisation $L_1$ pour surmonter les défis de la multicolinéarité et du bruit élevé dans les données de haute dimension, offrant ainsi une sélection de variables stable et précise.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

Ce papier présente les Environnements de Surveillance Synthétiques (SME), une suite infinie de tâches de contrôle continu aux politiques optimales connues, conçue pour permettre une analyse scientifique rigoureuse et transparente des algorithmes d'apprentissage par renforcement en isolant l'impact de facteurs environnementaux spécifiques sur leurs performances.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG

← Précédent Suivant →