Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Cette étude propose un cadre d'apprentissage par curriculum en trois étapes, combinant un masquage structurel et l'optimisation par politique de groupe relative (GRPO), pour distiller efficacement le raisonnement par chaîne de pensée dans des modèles compacts, permettant ainsi d'améliorer la précision tout en réduisant la longueur des réponses.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Regularized Online RLHF with Generalized Bilinear Preferences

Cet article propose une méthode d'apprentissage par renforcement à partir de préférences humaines en ligne régularisée, fondée sur un modèle de préférences bilinéaires généralisées, qui établit pour la première fois des garanties d'efficacité statistique en haute dimension avec des bornes de regret indépendantes de la dimension ou de la force de régularisation.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Ce papier présente Lap2, une nouvelle méthode qui permet d'utiliser le mécanisme de Laplace dans le DP-SGD pour les modèles de grande dimension en remplaçant le clipping L1 par un clipping L2 via la théorie de la majoration, améliorant ainsi considérablement les performances par rapport aux approches classiques.

Meisam Mohammady, Qin Yang, Nicholas Stout, Ayesha Samreen, Han Wang, Christopher J Quinn, Yuan Hong2026-03-06🔒 cs.CR

Inference-time optimization for experiment-grounded protein ensemble generation

Cet article présente un cadre d'optimisation au moment de l'inférence qui génère des ensembles protéiques conformes aux données expérimentales en optimisant les représentations latentes et en combinant des priors structurels et physiques, surpassant ainsi les méthodes actuelles tout en révélant une vulnérabilité des métriques de confiance des modèles génératifs.

Advaith Maddipatla, Anar Rzayev, Marco Pegoraro + 5 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Le papier présente DiffusionHarmonizer, un cadre d'amélioration générative en ligne qui transforme les rendus de scènes imparfaites issus de la reconstruction neuronale en sorties photoréalistes et temporellement cohérentes grâce à un amplificateur conditionné par le temps dérivé d'un modèle de diffusion préentraîné.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

Inverse Reconstruction of Shock Time Series from Shock Response Spectrum Curves using Machine Learning

Cet article propose l'utilisation d'un auto-encodeur variationnel conditionnel (CVAE) pour reconstruire efficacement et avec une grande fidélité spectrale les séries temporelles d'accélération à partir de spectres de réponse au choc, surmontant ainsi les limitations des méthodes d'optimisation itérative traditionnelles en termes de coût computationnel et de flexibilité.

Adam Watts, Andrew Jeon, Destry Newton + 1 more2026-03-06💻 cs