Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Ce papier propose PSN-RLVR, une méthode qui améliore l'exploration dans l'apprentissage par renforcement avec récompenses vérifiables en perturbant les paramètres du modèle plutôt que les actions, permettant ainsi de découvrir de nouvelles stratégies de raisonnement et d'obtenir de meilleures performances sur des tâches mathématiques complexes.

Bizhe Bai, Xinyue Wang, Peng Ye + 1 more2026-03-03🤖 cs.AI

Relaxed Triangle Inequality for Kullback-Leibler Divergence Between Multivariate Gaussian Distributions

Cet article établit la borne supérieure exacte de la divergence de Kullback-Leibler entre trois distributions gaussiennes multivariées satisfaisant une inégalité triangulaire relâchée, comblant ainsi une lacune théorique et démontrant son utilité pour la détection de données hors distribution et l'apprentissage par renforcement sûr.

Shiji Xiao, Yufeng Zhang, Chubo Liu + 3 more2026-03-03📊 stat

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Ce papier présente URSA-GAN, un cadre génératif unifié qui utilise une architecture à double encodage et une perturbation stochastique dynamique pour adapter robustement la reconnaissance et l'amélioration de la parole à des conditions de bruit et de canal inconnues, réduisant ainsi significativement les erreurs et améliorant les métriques perceptuelles.

Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang + 1 more2026-03-03⚡ eess

Quantile-Physics Hybrid Framework for Safe-Speed Recommendation under Diverse Weather Conditions Leveraging Connected Vehicle and Road Weather Information Systems Data

Cette étude propose un cadre hybride combinant des forêts de régression quantile et des principes physiques, alimenté par des données de véhicules connectés et de systèmes d'information routière météorologique, pour recommander en temps réel des intervalles de vitesse sûrs sur les autoroutes dans diverses conditions météorologiques afin de réduire les risques d'accidents.

Wen Zhang, Adel W. Sadek, Chunming Qiao2026-03-03🤖 cs.LG

CSRv2: Unlocking Ultra-Sparse Embeddings

Ce papier présente CSRv2, une méthode d'entraînement novatrice qui rend les représentations par embeddings ultra-creux (k-sparse) pratiques et performantes en stabilisant l'apprentissage de la parcimonie, permettant ainsi d'atteindre des gains d'efficacité computationnelle et mémoire considérables sans compromettre la précision par rapport aux embeddings denses ou aux approches existantes.

Lixuan Guo, Yifei Wang, Tiansheng Wen + 5 more2026-03-03🔢 math

AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

L'article présente AceGRPO, une méthode d'optimisation de politique relative de groupe améliorée par un curriculum adaptatif et un tampon de données évolutif, qui permet au modèle Ace-30B de surmonter la stagnation comportementale des agents MLE autonomes et d'atteindre des performances compétitives face aux modèles propriétaires.

Yuzhu Cai, Zexi Liu, Xinyu Zhu + 2 more2026-03-03🤖 cs.AI

Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data

Cet article propose FGNO, une nouvelle méthode d'apprentissage auto-supervisé pour les séries temporelles qui utilise un opérateur neuronal guidé par un flot et le transformé de Fourier à court terme pour apprendre des représentations hiérarchiques flexibles à partir de données bruitées, surpassant ainsi les méthodes existantes sur plusieurs tâches biomédicales.

Duy Nguyen, Jiachen Yao, Jiayun Wang + 2 more2026-03-03🤖 cs.LG

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Cette étude évalue les formats HiFloat (HiF8 et HiF4) sur les NPU Ascend pour l'inférence de grands modèles de langage, démontrant leur supériorité dans la gestion des données à forte variance et leur capacité à éviter l'effondrement de la précision en 4 bits par rapport aux formats entiers, tout en restant compatibles avec les cadres de quantification actuels.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li + 10 more2026-03-03💬 cs.CL

Random Forests as Statistical Procedures: Design, Variance, and Dependence

Cet article établit une théorie en échantillon fini pour les forêts aléatoires en tant que procédures statistiques, démontrant l'existence d'un plancher de variance inévitable dû à la réutilisation des observations et à l'alignement des partitions, et proposant une méthode de rééchantillonnage synthétique (PASR) pour estimer cette incertitude et construire des intervalles de prédiction fiables pour les résultats continus et les probabilités conditionnelles de classification.

Nathaniel S. O'Connell2026-03-03📊 stat

Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

Cet article présente la Directional Reasoning Trajectory Change (DRTC), une méthode d'interprétabilité causale qui identifie les segments de contexte critiques influençant les trajectoires de raisonnement des modèles de langage en détectant les points de basculement et en appliquant des interventions ciblées pour mesurer leur impact sur la probabilité de la réponse.

Waldemar Chang2026-03-03🤖 cs.LG