cs.LG articles | Gist.Science

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

Cet article présente AttnBoost, un cadre d'apprentissage interprétable qui intègre un mécanisme d'attention au niveau des caractéristiques dans le processus de boosting pour améliorer la précision des prévisions de ventes et l'explicabilité dans les chaînes d'approvisionnement de détail.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Cet article propose une méthode d'optimisation de la structure des réservoirs en utilisant l'homologie persistante GLMY pour modifier les cycles représentatifs de dimension un, démontrant ainsi que les performances du réservoir dépendent conjointement de sa structure topologique et de la périodicité des données.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Ce papier présente TabStruct, un cadre d'évaluation complet et un benchmark à grande échelle qui introduit la métrique « utilité globale » pour mesurer la fidélité structurelle des données tabulaires synthétiques sans nécessiter de structures causales de référence, tout en analysant conjointement cette dimension avec les critères d'évaluation conventionnels sur 29 jeux de données et 13 générateurs.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Cet article présente BabyHuBERT, un modèle d'apprentissage auto-supervisé multilingue entraîné sur 13 000 heures d'enregistrements d'enfants, qui surpasse les modèles existants pour la segmentation des locuteurs dans des contextes linguistiques diversifiés et sous-représentés.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Ce papier présente un cadre d'apprentissage par diffusion qui combine la modélisation générative et le contrôle d'impédance pour permettre à un robot d'adapter en temps réel sa rigidité et son amortissement lors de tâches de manipulation complexes, garantissant ainsi une précision et une généralisation exceptionnelles dans des environnements riches en contacts.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Cet article présente CR-PPO, une méthode d'optimisation de politique qui remplace la régularisation par entropie standard par un terme d'autorégulation basé sur la complexité (le produit de l'entropie et du déséquilibre), permettant ainsi d'obtenir une performance plus robuste et moins sensible au réglage des hyperparamètres en favorisant un équilibre dynamique entre ordre et hasard.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Cette étude démontre que l'apprentissage subliminal, par lequel les modèles de langage transfèrent des biais cachés lors de la distillation, repose sur un petit ensemble de « tokens de divergence » critiques dans les premières couches du modèle, rendant ce phénomène à la fois mécaniquement explicable et fragile face à de légères variations de contexte.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Le papier présente BeyondBench, un cadre d'évaluation résistant à la contamination qui génère dynamiquement des problèmes algorithmiques pour mesurer le véritable raisonnement des modèles de langage, révélant ainsi des déficiences significatives dans leur capacité à résoudre des tâches complexes sans outils externes.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Le papier présente SphereAR, une méthode qui améliore la génération d'images par modèles autoregressifs à tokens continus en contraignant les latents sur une hypersphère pour stabiliser la variance et atteindre des performances record surpassant les modèles de diffusion et de génération masquée.

Guolin Ke, Hui Xue2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Cet article établit des bornes explicites sur la distance de Wasserstein quadratique entre les réseaux de neurones monocouches entraînés par descente de gradient et leurs processus gaussiens associés, démontrant une convergence quantitative avec une décroissance polynomiale en fonction de la largeur du réseau.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Pretraining Large Language Models with NVFP4

Cette étude présente une méthode novatrice permettant l'entraînement stable et précis de grands modèles de langage en format NVFP4 à l'aide de transformations de Hadamard aléatoires et d'autres techniques, démontrant que cette approche atteint des performances comparables à la précision FP8 tout en réduisant considérablement les coûts de calcul.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

OPPO: Accelerating PPO-based RLHF via Pipeline Overlap

Le papier présente OPPO, un cadre léger et agnostique qui accélère l'entraînement RLHF basé sur PPO en chevauchant l'exécution du pipeline grâce à des techniques de recouvrement intra-étape et inter-étape, permettant d'augmenter l'efficacité et l'utilisation du GPU sans compromettre la convergence.

Kaizhuo Yan, Yingjie Yu, Yifan Yu + 2 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

VidGuard-R1 est un détecteur de vidéos générées par IA innovant qui utilise l'optimisation de politique relative de groupe (GRPO) pour surmonter les limites des méthodes supervisées traditionnelles en identifiant des incohérences physiques complexes et en fournissant des explications forensiques interprétables avec des performances de pointe en zéro-shot.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Cet article établit des bornes non asymptotiques sur l'efficacité de la régression conformalisée quantile et médiane entraînée par SGD, en caractérisant la dépendance conjointe de la longueur des ensembles de prédiction par rapport à la taille des jeux d'entraînement et de calibration ainsi qu'au niveau de non-couverture, et en identifiant des transitions de phase dans les taux de convergence.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Cette étude démontre empiriquement que l'élargissement des modèles, couplé à un étalonnage approprié de la température softmax, suffit à garantir la connectivité linéaire des modes sans nécessiter de permutations de paramètres, un phénomène expliqué par une connectivité exponentielle pondérée par couche qui rend le modèle fusionné équivalent à un ensemble des modèles originaux.

Akira Ito, Masanori Yamada, Daiki Chijiwa + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Cet article présente XFactor, le premier modèle auto-supervisé sans géométrie capable de synthèse de nouvelles vues véritablement transférable, démontrant que l'on peut dissocier la pose de la caméra du contenu de la scène et prédire des trajectoires cohérentes sur différents environnements sans recourir à des biais inductifs 3D explicites.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Ce papier présente CBF-RL, un cadre d'apprentissage par renforcement qui intègre des fonctions de barrière de contrôle directement durant l'entraînement pour internaliser les contraintes de sécurité dans la politique apprise, permettant ainsi un déploiement robuste et sûr sur des robots réels sans filtre de sécurité en ligne.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

← Précédent Suivant →