cs.LG articles | Gist.Science

RM-R1: Reward Modeling as Reasoning

Le papier présente RM-R1, une nouvelle classe de modèles de récompense génératifs qui améliorent l'interprétabilité et les performances en traitant la modélisation de la récompense comme un tâche de raisonnement via un mécanisme de « chaîne de critères » et un pipeline d'entraînement combinant distillation et apprentissage par renforcement.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias

Cet article propose une variante de la descente de miroir entropique avec un pas de type Polyak pour résoudre des systèmes linéaires sans hypothèses restrictives, établissant ainsi des résultats de convergence et en renforçant les bornes sur le biais implicite en norme $\ell_1$ .

Yura Malitsky, Alexander Posch2026-03-09🤖 cs.LG

Maximizing Asynchronicity in Event-based Neural Networks

Ce papier présente EVA, un nouveau cadre d'apprentissage de caractéristiques asynchrones inspiré du langage qui surpasse les méthodes existantes en reconnaissance et devient le premier à réussir des tâches de détection exigeantes pour les caméras d'événements.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Ce papier présente ESGenius, le premier benchmark complet évaluant les capacités des grands modèles de langage sur les connaissances en matière d'ESG et de durabilité via un ensemble de questions et un corpus de documents de référence, démontrant que l'approche RAG améliore significativement les performances, en particulier pour les modèles plus petits.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

ContextBench: Modifying Contexts for Targeted Latent Activation

Le papier présente ContextBench, un benchmark évaluant la capacité à générer des entrées linguistiquement fluides activant des comportements ou caractéristiques latentes spécifiques dans les modèles de langage, et démontre que des variantes améliorées de l'optimisation évolutive de prompts surpassent les méthodes actuelles pour équilibrer efficacité d'élicitation et fluidité.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Le papier présente Sysformer, une méthode novatrice qui améliore la sécurité des grands modèles de langage sans modifier leurs paramètres en apprenant à adapter dynamiquement les invites système en fonction des entrées utilisateur, réduisant ainsi considérablement les réponses nocives tout en augmentant la conformité aux demandes sûres.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

SPoT: Subpixel Placement of Tokens in Vision Transformers

Le papier propose SPoT, une nouvelle stratégie de tokenisation pour les Vision Transformers qui positionne continuellement les tokens au niveau subpixel grâce à une recherche guidée par oracle, permettant ainsi de réduire considérablement le nombre de tokens nécessaires pour des prédictions précises tout en transformant la sparsité en un avantage stratégique.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

Quantifying Cross-Attention Interaction in Transformers for Interpreting TCR-pMHC Binding

Ce papier propose QCAI, une nouvelle méthode post-hoc pour interpréter les mécanismes d'attention croisée dans les transformateurs utilisés pour modéliser la liaison TCR-pMHC, et démontre sa supériorité grâce au benchmark TCR-XAI basé sur des structures expérimentales.

Jiarui Li, Zixiang Yin, Haley Smith, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Ce papier présente DejaVu, une attaque exploitant le réseau in-vehicule pour créer des désalignements temporels subtils entre les flux caméra et LiDAR, qui dégradent sévèrement les performances de fusion multimodale dans la conduite autonome en provoquant des pertes de détection et de suivi d'objets, voire des accidents.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou2026-03-09🤖 cs.LG

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Cet article propose un cadre innovant d'apprentissage par curriculum automatique pour la conduite autonome, où un agent « enseignant » basé sur l'apprentissage par renforcement multi-agents génère dynamiquement des comportements de trafic variés pour entraîner un agent « étudiant », améliorant ainsi la robustesse et l'équilibre de la conduite par rapport aux méthodes traditionnelles.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Merging Memory and Space: A State Space Neural Operator

L'article propose l'opérateur neuronal à espace d'état (SS-NO), une architecture compacte et efficace qui intègre l'amortissement adaptatif et la modulation fréquentielle apprenable pour modéliser avec précision les opérateurs de solutions d'équations aux dérivées partielles dépendantes du temps tout en surpassant les méthodes existantes avec moins de paramètres.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Ce papier présente les « multivariate fields of experts », un nouveau cadre d'apprentissage de priors d'images qui, grâce à des fonctions potentielles multivariées basées sur les enveloppes de Moreau, surpasse les modèles univariés et rivalise avec les méthodes d'apprentissage profond pour résoudre divers problèmes inverses tout en offrant une meilleure rapidité, une plus grande efficacité des paramètres et des garanties théoriques de convergence.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Cet article établit une compréhension théorique de la convergence de l'algorithme EM pour la régression linéaire mixte sur-spécifiée, démontrant que la vitesse de convergence (linéaire ou sous-linéaire) et la précision statistique dépendent crucialement de l'équilibre initial des poids de mélange, avec des bornes de complexité itérative et d'erreur adaptées aux régimes de population et d'échantillon fini.

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Cet article propose Kernel VICReg, un cadre d'apprentissage auto-supervisé novateur qui transpose l'objectif VICReg dans un espace de Hilbert à noyau reproduisant (RKHS) pour capturer des dépendances non linéaires et améliorer les performances sur des données à structure complexe sans nécessiter d'étiquettes.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Ce papier présente ScaleZero, un modèle unique pour la planification multi-tâches qui surpasse les approches conventionnelles en résolvant les conflits de gradients grâce à une architecture Mixture-of-Experts et en optimisant l'efficacité de l'apprentissage via une stratégie de mise à l'échelle dynamique des paramètres.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

Quantum parameter estimation with uncertainty quantification from continuous measurement data using neural network ensembles

Cet article démontre que les ensembles de réseaux de neurones profonds permettent d'estimer des paramètres quantiques avec une quantification fiable de l'incertitude, une détection de dérive des données et une inférence rapide, offrant ainsi une alternative prometteuse aux méthodes bayésiennes traditionnelles pour les applications expérimentales en temps réel.

Amanuel Anteneh2026-03-09⚛️ quant-ph

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Ce papier présente une nouvelle approche d'alignement de sécurité nommée « Answer-Then-Check », qui améliore la robustesse des grands modèles de langage contre les attaques de contournement en les entraînant à raisonner sur une réponse directe avant d'en évaluer la sécurité, permettant ainsi de réduire les refus excessifs tout en préservant les capacités de raisonnement général.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

Le papier présente VEGA, un agent de navigation pour véhicules électriques qui combine un opérateur neuronal informé par la physique pour estimer les paramètres du véhicule et un algorithme d'apprentissage par renforcement (PPO) pour planifier des itinéraires et des arrêts de recharge optimaux, démontrant une grande efficacité et une capacité de généralisation sur des réseaux routiers internationaux.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Ce papier présente la TACE (Tensor Atomic Cluster Expansion), un modèle d'apprentissage machine atomistique universel basé sur des tenseurs cartésiens irréductibles qui unifie la modélisation scalaire et tensorielle pour prédire avec précision et stabilité une large gamme d'observables, y compris les réponses aux champs externes et les spectres, sans recourir à des couplages de moment angulaire complexes.

Zemin Xu, Wenbo Xie, P. Hu2026-03-09🔬 cond-mat.mtrl-sci

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Cet article présente C²Prompt, une nouvelle méthode d'apprentissage continu fédéré qui améliore la cohérence des connaissances par classe entre les clients grâce à un mécanisme de compensation de distribution locale et un schéma d'agrégation de prompts conscient des classes, permettant ainsi de surmonter l'oubli spatial et temporel et d'atteindre des performances de pointe.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

← Précédent Suivant →