Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

En modélisant le boucle externe de PPO comme une optimisation stochastique, cette étude démontre que l'augmentation massive du nombre d'environnements parallèles (jusqu'à un million) permet de réduire le bruit du gradient et de prévenir la stagnation de l'apprentissage, permettant ainsi une amélioration monotone des performances jusqu'à un trillion de transitions.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Ce papier améliore l'analyse de Klivans et al. en démontrant que le degré polynomial nécessaire pour l'apprentissage agnostique de classes de concepts à surface de Gauss bornée est de d=O~(Γ2/ε2)d = \tilde O (\Gamma^2 / \varepsilon^2), établissant ainsi des bornes quasi-optimales pour l'apprentissage des fonctions de seuil polynomial dans le modèle des requêtes statistiques.

Lucas Pesenti, Lucas Slot, Manuel Wiedmer2026-03-09🤖 cs.LG

Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging

Cet article démontre que la dynamique de Langevin combinée à la moyenne des itérés permet de récupérer une direction cachée dans des modèles à haute dimension avec un nombre d'échantillons optimal de l'ordre de dk/2d^{k^\star/2}, contournant ainsi les limites précédentes sans nécessiter de lissage explicite du paysage d'optimisation.

Stanley Wei, Alex Damian, Jason D. Lee2026-03-09🤖 cs.LG

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Cet article propose DQE, une nouvelle métrique d'évaluation pour la détection d'anomalies dans les séries temporelles qui, en s'appuyant sur une partition sémantique des événements et une agrégation sur tout le spectre des seuils, surmonte les biais et les incohérences des mesures existantes pour offrir une évaluation plus stable, discriminative et interprétable.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Cette étude démontre que l'application de perturbations d'entrée structurées, telles que le bruit de Perlin, aux réseaux de neurones graphiques permet de générer des prévisions probabilistes bien calibrées de la température de surface de la mer dans la région des îles Canaries sans coût de formation supplémentaire, tout en maintenant une compétence déterministe équivalente à celle d'un modèle unique.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Le papier présente OMEGA, une méthode de recherche apprise généralisable à n'importe quel K qui, en s'entraînant uniquement sur K=1 et en utilisant un raffinement dynamique, surpasse les méthodes existantes en termes de latence et de temps de prétraitement tout en maintenant une haute précision pour des requêtes multi-K.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Cette étude démontre que l'intégration de l'analyse topologique des données (TDA) appliquée aux séries temporelles de dégagement du pied, combinée à l'apprentissage automatique, améliore significativement le diagnostic différentiel entre la maladie de Parkinson idiopathique et le parkinsonisme vasculaire.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

Ce papier présente les Environnements de Surveillance Synthétiques (SME), une suite infinie de tâches de contrôle continu aux politiques optimales connues, conçue pour permettre une analyse scientifique rigoureuse et transparente des algorithmes d'apprentissage par renforcement en isolant l'impact de facteurs environnementaux spécifiques sur leurs performances.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG