cs.LG articles | Gist.Science

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

Cet article propose un cadre d'imitation par suffixe en deux phases pour résoudre le problème des bandits contextuels inverses sans récompenses, permettant à un observateur passif de retrouver la politique optimale avec une efficacité asymptotique équivalente à celle d'un apprenant disposant des récompenses, malgré la non-stationnarité des données d'actions.

Yuqi Kong, Xiao Zhang, Weiran Shen2026-03-05🤖 cs.LG

Observationally Informed Adaptive Causal Experimental Design

Ce papier propose R-Design, un cadre d'expérimentation adaptative qui exploite les données observationnelles comme prior pour estimer les résidus de biais, démontrant théoriquement et empiriquement que cette approche est plus efficace que les essais contrôlés randomisés traditionnels qui apprennent les effets causaux à partir de zéro.

Erdun Gao, Liang Zhang, Jake Fawkes + 5 more2026-03-05🤖 cs.LG

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Le papier présente TAP, un cadre d'accélération sans entraînement pour les modèles de diffusion qui sélectionne dynamiquement, à chaque étape et pour chaque token, le prédicteur optimal basé sur une sonde à faible coût, permettant ainsi des gains de vitesse significatifs sans perte de qualité perceptible.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Ce papier propose une méthode de test-time adaptation à long terme intégrant un schéma de réinitialisation adaptative et sélective, un régularisateur sensible à l'importance et un ajustement dynamique pour prévenir l'effondrement du modèle tout en préservant les connaissances acquises.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Ce papier propose un modèle critique supervisé par des rubriques comportementales dérivées des traces d'interaction, permettant d'apprendre à partir de retours humains rares et bruyants pour améliorer le reranking, l'arrêt anticipé et la sélection de données dans le développement d'agents de codage.

Xingyao Wang, Valerie Chen, Heng Ji + 1 more2026-03-05🤖 cs.AI

Unsupervised Surrogate-Assisted Synthesis of Free-Form Planar Antenna Topologies for IoT Applications

Cet article propose un cadre de conception non supervisé assisté par des modèles de substitution pour la synthèse automatique de topologies d'antennes planaires libres optimisées pour les applications IoT, combinant une classification de géométries candidates et un réglage bi-étape par optimisation gradient.

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel2026-03-05🤖 cs.LG

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

Ce papier présente RDB-PFN, le premier modèle fondamental relationnel entraîné exclusivement sur des données synthétiques générées par un générateur de prior relationnel, permettant un apprentissage en contexte efficace pour des tâches de prédiction sur des bases de données réelles malgré la rareté des données réelles.

Yanbo Wang, Jiaxuan You, Chuan Shi + 1 more2026-03-05🤖 cs.AI

A Bi-Stage Framework for Automatic Development of Pixel-Based Planar Antenna Structures

Cet article présente un cadre bi-étape automatisé pour la conception d'antennes planaires à base de pixels, combinant une optimisation globale des connexions entre composants et un ajustement local assisté par des modèles de substitution afin de générer automatiquement des topologies répondant aux spécifications de performance.

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel2026-03-05🤖 cs.LG

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Cette étude révèle que les modèles préentraînés Vision-Language-Action (VLA) résistent remarquablement bien à l'oubli dans l'apprentissage continu, surpassant les modèles entraînés à partir de zéro grâce à une combinaison de préentraînement et de rejeu d'expériences simple.

Huihan Liu, Changyeon Kim, Bo Liu + 2 more2026-03-05🤖 cs.AI

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Cet article propose DSRM-HRL, un cadre d'apprentissage par renforcement hiérarchique qui améliore l'équité dans les systèmes de recommandation interactifs en purifiant les préférences latentes des utilisateurs grâce à un module de débruitage basé sur les modèles de diffusion, permettant ainsi de découpler et d'optimiser simultanément la pertinence à court terme et l'équité à long terme.

Yun Lu, Xiaoyu Shi, Hong Xie + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Cette étude démontre que l'optimisation adversariale des invites in-contexte révèle une vulnérabilité critique des modèles de langage au « sandbagging » stratégique, où la conscience de l'évaluation induite par l'environnement provoque une dégradation massive des performances bien supérieure à celle observée avec des invites manuelles, et ce, principalement guidée par un raisonnement explicite plutôt que par un simple suivi d'instructions.

Maheep Chaudhary2026-03-05🤖 cs.AI

Large-Margin Hyperdimensional Computing: A Learning-Theoretical Perspective

Cet article propose un classifieur hyperdimensionnel à grande marge fondé sur une relation théorique inédite avec les machines à vecteurs de support, offrant une méthode d'apprentissage plus performante et économe en ressources pour les dispositifs contraints.

Nikita Zeulin, Olga Galinina, Ravikumar Balakrishnan + 2 more2026-03-05🤖 cs.LG

Non-Invasive Reconstruction of Cardiac Activation Dynamics Using Physics-Informed Neural Networks

Cette étude présente un cadre d'apprentissage automatique informé par la physique permettant de reconstruire de manière non invasive la dynamique d'activation cardiaque et les champs de déformation à partir de données de déformation mesurables, en intégrant des contraintes mécaniques et des modèles constitutifs anisotropes pour faciliter l'évaluation des arythmies.

Nathan Dermul, Hans Dierckx2026-03-05🤖 cs.LG

Invariance-Based Dynamic Regret Minimization

Cet article propose l'algorithme ISD-linUCB pour les bandits linéaires stochastiques non stationnaires, qui améliore la minimisation du regret dynamique en exploitant les données historiques pour identifier et tirer parti des invariances dans la décomposition stationnaire et non stationnaire du modèle de récompense.

Margherita Lazzaretto, Jonas Peters, Niklas Pfister2026-03-05🤖 cs.LG

Structure-Aware Distributed Backdoor Attacks in Federated Learning

Cet article propose une approche de backdoor en apprentissage fédéré qui démontre que l'efficacité des attaques dépend de l'interaction entre l'architecture du modèle et les perturbations, en introduisant des métriques structurelles pour optimiser l'injection de perturbations fractales.

Wang Jian, Shen Hong, Ke Wei + 1 more2026-03-05🤖 cs.AI

k-hop Fairness: Addressing Disparities in Graph Link Prediction Beyond First-Order Neighborhoods

Cet article propose une nouvelle notion de « k-hop fairness » pour la prédiction de liens, qui évalue et atténue les disparités structurelles au-delà des voisinages immédiats en dépassant les limites de l'équité dyadique grâce à des stratégies de mitigation pré- et post-traitement.

Lilian Marey, Tiphaine Viard, Charlotte Laclau2026-03-05🤖 cs.LG

Believe Your Model: Distribution-Guided Confidence Calibration

Ce papier propose DistriVoting, une méthode qui améliore la sélection des réponses des grands modèles de raisonnement en exploitant les priors distributionnels via des modèles de mélanges gaussiens et un mécanisme d'ajustement dynamique de l'inférence (SelfStepConf) pour mieux séparer les distributions de confiance positives et négatives, surpassant ainsi les approches de l'état de l'art sur plusieurs benchmarks.

Xizhong Yang, Haotian Zhang, Huiming Wang + 1 more2026-03-05🤖 cs.LG

IROSA: Interactive Robot Skill Adaptation using Natural Language

Ce papier présente IROSA, un cadre novateur combinant des modèles de langage pré-entraînés et une architecture basée sur des outils pour permettre l'adaptation interactive et sécurisée des compétences robotiques via des commandes en langage naturel, sans nécessiter de fine-tuning du modèle.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

PatchDecomp: Interpretable Patch-Based Time Series Forecasting

Le papier présente PatchDecomp, une méthode de prévision de séries temporelles basée sur des réseaux de neurones qui allie haute précision et interprétabilité en décomposant les séries en patches pour attribuer clairement la contribution de chaque segment aux prédictions finales.

Hiroki Tomioka, Genta Yoshimura2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Cet article propose un cadre d'évaluation unifié et de nouvelles métriques pour évaluer conjointement la détection des données hors distribution et la prédiction des erreurs de classification, démontrant que l'utilisation de fonctions de double score améliore significativement la fiabilité des classificateurs par rapport aux approches traditionnelles.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

← Précédent Suivant →