cs.LG articles | Gist.Science

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Cet article propose EDA, un cadre théorique unifié qui étend les modèles de diffusion EDM aux bruits arbitraires pour améliorer la restauration d'images médicales et naturelles sans surcharge computationnelle, tout en démontrant une forte capacité de généralisation avec seulement cinq étapes d'échantillonnage.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Cet article présente un algorithme EM quantique pour l'entraînement des machines de Boltzmann quantiques, une méthode géométrique qui contourne le problème des plateaux stériles et améliore les performances par rapport à la descente de gradient sur des architectures semi-quantiques hybrides.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Cet article propose TIC-GRPO, un nouvel algorithme d'optimisation pour l'apprentissage par renforcement à partir de retours humains qui remplace les ratios d'importance au niveau des tokens par un ratio au niveau de la trajectoire pour estimer le gradient de la politique actuelle, garantissant ainsi une convergence plus rapide et des performances supérieures tout en conservant la structure sans critique du GRPO.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Cette étude propose un cadre d'évaluation rigoureux et équilibré pour les modèles d'intelligence artificielle de détection des crises néonatales, en identifiant les métriques et les tests d'équivalence avec les experts les plus fiables pour garantir leur validité clinique.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Cette étude présente la première analyse systématique de mécanismes de régularisation appliqués pendant l'entraînement pour contrer la désalignement émergent dans les modèles de langage, démontrant que l'intercalation stratégique d'exemples d'entraînement basée sur l'écart de perplexité constitue la méthode la plus efficace pour prévenir les comportements néfastes tout en préservant les performances.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Cette étude propose une méthode rapide pour évaluer la sensibilité des classements de grands modèles de langage aux suppressions minimales de données de préférence, révélant que les classements du Chatbot Arena sont extrêmement fragiles au point qu'un retrait infime (0,003 %) peut inverser le modèle en tête, contrairement à ceux du MT-bench qui sont plus robustes grâce à une annotation experte.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Cette étude démontre que la quantisation des grands modèles de langage a un impact nuancé sur les biais, réduisant la toxicité mais augmentant légèrement les stéréotypes et l'injustice dans les tâches génératives, ce qui souligne la nécessité d'équilibrer l'efficacité et les considérations éthiques.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Cet article présente une enquête complète sur l'apprentissage par renforcement multi-agents dans les systèmes de transport intelligents, en proposant une taxonomie structurée, en examinant des applications clés et des plateformes de simulation, tout en identifiant les défis majeurs entravant leur déploiement réel.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Cet article propose une explication géométrique des limitations des solveurs SAT basés sur les réseaux de neurones à graphes, démontrant que la courbure de Ricci négative inhérente aux formules k-SAT crée des goulots d'étranglement de connectivité qui provoquent un « oversquashing » et dégradent les performances sur les instances difficiles.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

Cet article présente AttnBoost, un cadre d'apprentissage interprétable qui intègre un mécanisme d'attention au niveau des caractéristiques dans le processus de boosting pour améliorer la précision des prévisions de ventes et l'explicabilité dans les chaînes d'approvisionnement de détail.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Cet article propose une méthode d'optimisation de la structure des réservoirs en utilisant l'homologie persistante GLMY pour modifier les cycles représentatifs de dimension un, démontrant ainsi que les performances du réservoir dépendent conjointement de sa structure topologique et de la périodicité des données.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Ce papier présente TabStruct, un cadre d'évaluation complet et un benchmark à grande échelle qui introduit la métrique « utilité globale » pour mesurer la fidélité structurelle des données tabulaires synthétiques sans nécessiter de structures causales de référence, tout en analysant conjointement cette dimension avec les critères d'évaluation conventionnels sur 29 jeux de données et 13 générateurs.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Cet article présente BabyHuBERT, un modèle d'apprentissage auto-supervisé multilingue entraîné sur 13 000 heures d'enregistrements d'enfants, qui surpasse les modèles existants pour la segmentation des locuteurs dans des contextes linguistiques diversifiés et sous-représentés.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Ce papier présente un cadre d'apprentissage par diffusion qui combine la modélisation générative et le contrôle d'impédance pour permettre à un robot d'adapter en temps réel sa rigidité et son amortissement lors de tâches de manipulation complexes, garantissant ainsi une précision et une généralisation exceptionnelles dans des environnements riches en contacts.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Cet article présente CR-PPO, une méthode d'optimisation de politique qui remplace la régularisation par entropie standard par un terme d'autorégulation basé sur la complexité (le produit de l'entropie et du déséquilibre), permettant ainsi d'obtenir une performance plus robuste et moins sensible au réglage des hyperparamètres en favorisant un équilibre dynamique entre ordre et hasard.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Cette étude démontre que l'apprentissage subliminal, par lequel les modèles de langage transfèrent des biais cachés lors de la distillation, repose sur un petit ensemble de « tokens de divergence » critiques dans les premières couches du modèle, rendant ce phénomène à la fois mécaniquement explicable et fragile face à de légères variations de contexte.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Le papier présente BeyondBench, un cadre d'évaluation résistant à la contamination qui génère dynamiquement des problèmes algorithmiques pour mesurer le véritable raisonnement des modèles de langage, révélant ainsi des déficiences significatives dans leur capacité à résoudre des tâches complexes sans outils externes.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

← Précédent Suivant →