Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

Cet article propose un cadre d'imitation par suffixe en deux phases pour résoudre le problème des bandits contextuels inverses sans récompenses, permettant à un observateur passif de retrouver la politique optimale avec une efficacité asymptotique équivalente à celle d'un apprenant disposant des récompenses, malgré la non-stationnarité des données d'actions.

Yuqi Kong, Xiao Zhang, Weiran Shen2026-03-05🤖 cs.LG

A Bi-Stage Framework for Automatic Development of Pixel-Based Planar Antenna Structures

Cet article présente un cadre bi-étape automatisé pour la conception d'antennes planaires à base de pixels, combinant une optimisation globale des connexions entre composants et un ajustement local assisté par des modèles de substitution afin de générer automatiquement des topologies répondant aux spécifications de performance.

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel2026-03-05🤖 cs.LG

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Cet article propose DSRM-HRL, un cadre d'apprentissage par renforcement hiérarchique qui améliore l'équité dans les systèmes de recommandation interactifs en purifiant les préférences latentes des utilisateurs grâce à un module de débruitage basé sur les modèles de diffusion, permettant ainsi de découpler et d'optimiser simultanément la pertinence à court terme et l'équité à long terme.

Yun Lu, Xiaoyu Shi, Hong Xie + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Cette étude démontre que l'optimisation adversariale des invites in-contexte révèle une vulnérabilité critique des modèles de langage au « sandbagging » stratégique, où la conscience de l'évaluation induite par l'environnement provoque une dégradation massive des performances bien supérieure à celle observée avec des invites manuelles, et ce, principalement guidée par un raisonnement explicite plutôt que par un simple suivi d'instructions.

Maheep Chaudhary2026-03-05🤖 cs.AI

Non-Invasive Reconstruction of Cardiac Activation Dynamics Using Physics-Informed Neural Networks

Cette étude présente un cadre d'apprentissage automatique informé par la physique permettant de reconstruire de manière non invasive la dynamique d'activation cardiaque et les champs de déformation à partir de données de déformation mesurables, en intégrant des contraintes mécaniques et des modèles constitutifs anisotropes pour faciliter l'évaluation des arythmies.

Nathan Dermul, Hans Dierckx2026-03-05🤖 cs.LG

Believe Your Model: Distribution-Guided Confidence Calibration

Ce papier propose DistriVoting, une méthode qui améliore la sélection des réponses des grands modèles de raisonnement en exploitant les priors distributionnels via des modèles de mélanges gaussiens et un mécanisme d'ajustement dynamique de l'inférence (SelfStepConf) pour mieux séparer les distributions de confiance positives et négatives, surpassant ainsi les approches de l'état de l'art sur plusieurs benchmarks.

Xizhong Yang, Haotian Zhang, Huiming Wang + 1 more2026-03-05🤖 cs.LG

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Cet article propose un cadre d'évaluation unifié et de nouvelles métriques pour évaluer conjointement la détection des données hors distribution et la prédiction des erreurs de classification, démontrant que l'utilisation de fonctions de double score améliore significativement la fiabilité des classificateurs par rapport aux approches traditionnelles.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG