TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Cet article propose TIC-GRPO, un nouvel algorithme d'optimisation pour l'apprentissage par renforcement à partir de retours humains qui remplace les ratios d'importance au niveau des tokens par un ratio au niveau de la trajectoire pour estimer le gradient de la politique actuelle, garantissant ainsi une convergence plus rapide et des performances supérieures tout en conservant la structure sans critique du GRPO.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Cette étude présente la première analyse systématique de mécanismes de régularisation appliqués pendant l'entraînement pour contrer la désalignement émergent dans les modèles de langage, démontrant que l'intercalation stratégique d'exemples d'entraînement basée sur l'écart de perplexité constitue la méthode la plus efficace pour prévenir les comportements néfastes tout en préservant les performances.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Cette étude propose une méthode rapide pour évaluer la sensibilité des classements de grands modèles de langage aux suppressions minimales de données de préférence, révélant que les classements du Chatbot Arena sont extrêmement fragiles au point qu'un retrait infime (0,003 %) peut inverser le modèle en tête, contrairement à ceux du MT-bench qui sont plus robustes grâce à une annotation experte.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Ce papier présente TabStruct, un cadre d'évaluation complet et un benchmark à grande échelle qui introduit la métrique « utilité globale » pour mesurer la fidélité structurelle des données tabulaires synthétiques sans nécessiter de structures causales de référence, tout en analysant conjointement cette dimension avec les critères d'évaluation conventionnels sur 29 jeux de données et 13 générateurs.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Ce papier présente un cadre d'apprentissage par diffusion qui combine la modélisation générative et le contrôle d'impédance pour permettre à un robot d'adapter en temps réel sa rigidité et son amortissement lors de tâches de manipulation complexes, garantissant ainsi une précision et une généralisation exceptionnelles dans des environnements riches en contacts.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Cet article présente CR-PPO, une méthode d'optimisation de politique qui remplace la régularisation par entropie standard par un terme d'autorégulation basé sur la complexité (le produit de l'entropie et du déséquilibre), permettant ainsi d'obtenir une performance plus robuste et moins sensible au réglage des hyperparamètres en favorisant un équilibre dynamique entre ordre et hasard.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Cette étude démontre que l'apprentissage subliminal, par lequel les modèles de langage transfèrent des biais cachés lors de la distillation, repose sur un petit ensemble de « tokens de divergence » critiques dans les premières couches du modèle, rendant ce phénomène à la fois mécaniquement explicable et fragile face à de légères variations de contexte.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs