New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Cet article propose une nouvelle approche d'alignement acoustique-linguistique pour la reconnaissance automatique de la parole, modélisant la correspondance comme un problème de détection via un transport optimal déséquilibré afin de gérer les asymétries structurelles et le bruit, améliorant ainsi le transfert de connaissances et les performances du système.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Ce papier présente TabStruct, un cadre d'évaluation complet et un benchmark à grande échelle qui introduit la métrique « utilité globale » pour mesurer la fidélité structurelle des données tabulaires synthétiques sans nécessiter de structures causales de référence, tout en analysant conjointement cette dimension avec les critères d'évaluation conventionnels sur 29 jeux de données et 13 générateurs.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Ce papier présente un cadre d'apprentissage par diffusion qui combine la modélisation générative et le contrôle d'impédance pour permettre à un robot d'adapter en temps réel sa rigidité et son amortissement lors de tâches de manipulation complexes, garantissant ainsi une précision et une généralisation exceptionnelles dans des environnements riches en contacts.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Cet article présente CR-PPO, une méthode d'optimisation de politique qui remplace la régularisation par entropie standard par un terme d'autorégulation basé sur la complexité (le produit de l'entropie et du déséquilibre), permettant ainsi d'obtenir une performance plus robuste et moins sensible au réglage des hyperparamètres en favorisant un équilibre dynamique entre ordre et hasard.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Ce travail propose Noise-to-Notes (N2N), un cadre de transcription automatique de batterie basé sur la diffusion qui reformule la tâche comme un problème génératif conditionnel, intègre des modèles de fondation musicale pour améliorer la robustesse et utilise une nouvelle fonction de perte pour optimiser conjointement les onsets binaires et les vitesses continues, établissant ainsi un nouvel état de l'art sur plusieurs benchmarks.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Le papier présente BridgeDrive, une nouvelle politique de planification de trajectoire en boucle fermée pour la conduite autonome qui utilise un pont de diffusion guidé par des ancêtres pour transformer de manière théoriquement cohérente des trajectoires grossières en plans précis, atteignant ainsi des performances de pointe sur le benchmark Bench2Drive.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Cette étude démontre que l'apprentissage subliminal, par lequel les modèles de langage transfèrent des biais cachés lors de la distillation, repose sur un petit ensemble de « tokens de divergence » critiques dans les premières couches du modèle, rendant ce phénomène à la fois mécaniquement explicable et fragile face à de légères variations de contexte.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

VidGuard-R1 est un détecteur de vidéos générées par IA innovant qui utilise l'optimisation de politique relative de groupe (GRPO) pour surmonter les limites des méthodes supervisées traditionnelles en identifiant des incohérences physiques complexes et en fournissant des explications forensiques interprétables avec des performances de pointe en zéro-shot.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Cet article établit des bornes non asymptotiques sur l'efficacité de la régression conformalisée quantile et médiane entraînée par SGD, en caractérisant la dépendance conjointe de la longueur des ensembles de prédiction par rapport à la taille des jeux d'entraînement et de calibration ainsi qu'au niveau de non-couverture, et en identifiant des transitions de phase dans les taux de convergence.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Cette étude démontre empiriquement que l'élargissement des modèles, couplé à un étalonnage approprié de la température softmax, suffit à garantir la connectivité linéaire des modes sans nécessiter de permutations de paramètres, un phénomène expliqué par une connectivité exponentielle pondérée par couche qui rend le modèle fusionné équivalent à un ensemble des modèles originaux.

Akira Ito, Masanori Yamada, Daiki Chijiwa + 1 more2026-03-06💻 cs