cs.LG articles | Gist.Science

Merging Memory and Space: A State Space Neural Operator

L'article propose l'opérateur neuronal à espace d'état (SS-NO), une architecture compacte et efficace qui intègre l'amortissement adaptatif et la modulation fréquentielle apprenable pour modéliser avec précision les opérateurs de solutions d'équations aux dérivées partielles dépendantes du temps tout en surpassant les méthodes existantes avec moins de paramètres.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Ce papier présente les « multivariate fields of experts », un nouveau cadre d'apprentissage de priors d'images qui, grâce à des fonctions potentielles multivariées basées sur les enveloppes de Moreau, surpasse les modèles univariés et rivalise avec les méthodes d'apprentissage profond pour résoudre divers problèmes inverses tout en offrant une meilleure rapidité, une plus grande efficacité des paramètres et des garanties théoriques de convergence.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Cet article établit une compréhension théorique de la convergence de l'algorithme EM pour la régression linéaire mixte sur-spécifiée, démontrant que la vitesse de convergence (linéaire ou sous-linéaire) et la précision statistique dépendent crucialement de l'équilibre initial des poids de mélange, avec des bornes de complexité itérative et d'erreur adaptées aux régimes de population et d'échantillon fini.

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Cet article propose Kernel VICReg, un cadre d'apprentissage auto-supervisé novateur qui transpose l'objectif VICReg dans un espace de Hilbert à noyau reproduisant (RKHS) pour capturer des dépendances non linéaires et améliorer les performances sur des données à structure complexe sans nécessiter d'étiquettes.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Ce papier présente ScaleZero, un modèle unique pour la planification multi-tâches qui surpasse les approches conventionnelles en résolvant les conflits de gradients grâce à une architecture Mixture-of-Experts et en optimisant l'efficacité de l'apprentissage via une stratégie de mise à l'échelle dynamique des paramètres.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

Quantum parameter estimation with uncertainty quantification from continuous measurement data using neural network ensembles

Cet article démontre que les ensembles de réseaux de neurones profonds permettent d'estimer des paramètres quantiques avec une quantification fiable de l'incertitude, une détection de dérive des données et une inférence rapide, offrant ainsi une alternative prometteuse aux méthodes bayésiennes traditionnelles pour les applications expérimentales en temps réel.

Amanuel Anteneh2026-03-09⚛️ quant-ph

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Ce papier présente une nouvelle approche d'alignement de sécurité nommée « Answer-Then-Check », qui améliore la robustesse des grands modèles de langage contre les attaques de contournement en les entraînant à raisonner sur une réponse directe avant d'en évaluer la sécurité, permettant ainsi de réduire les refus excessifs tout en préservant les capacités de raisonnement général.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

Le papier présente VEGA, un agent de navigation pour véhicules électriques qui combine un opérateur neuronal informé par la physique pour estimer les paramètres du véhicule et un algorithme d'apprentissage par renforcement (PPO) pour planifier des itinéraires et des arrêts de recharge optimaux, démontrant une grande efficacité et une capacité de généralisation sur des réseaux routiers internationaux.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Ce papier présente la TACE (Tensor Atomic Cluster Expansion), un modèle d'apprentissage machine atomistique universel basé sur des tenseurs cartésiens irréductibles qui unifie la modélisation scalaire et tensorielle pour prédire avec précision et stabilité une large gamme d'observables, y compris les réponses aux champs externes et les spectres, sans recourir à des couplages de moment angulaire complexes.

Zemin Xu, Wenbo Xie, P. Hu2026-03-09🔬 cond-mat.mtrl-sci

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Cet article présente C²Prompt, une nouvelle méthode d'apprentissage continu fédéré qui améliore la cohérence des connaissances par classe entre les clients grâce à un mécanisme de compensation de distribution locale et un schéma d'agrégation de prompts conscient des classes, permettant ainsi de surmonter l'oubli spatial et temporel et d'atteindre des performances de pointe.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Auto-Regressive U-Net for Full-Field Prediction of Shrinkage-Induced Damage in Concrete

Cet article présente une architecture de double réseau neuronal, combinant un U-Net auto-régressif et un CNN, permettant de prédire avec une grande efficacité l'évolution spatio-temporelle des dommages dans le béton et d'en déduire ses propriétés mécaniques afin d'optimiser les formulations de mélange.

Liya Gaynutdinova, Petr Havlásek, Ondřej Rokoš, Fleur Hendriks, Martin Doškář2026-03-09🤖 cs.LG

Taxonomy-aware Dynamic Motion Generation on Hyperbolic Manifolds

Cet article présente le GPHDM, une approche novatrice qui génère des mouvements robotiques physiquement cohérents en apprenant des représentations latentes sur des variétés hyperboliques qui préservent à la fois la structure hiérarchique taxonomique et la dynamique temporelle des mouvements humains.

Luis Augenstein, Noémie Jaquier, Tamim Asfour, Leonel Rozo2026-03-09🤖 cs.LG

Planner Aware Path Learning in Diffusion Language Models Training

Ce papier propose une nouvelle méthode d'apprentissage appelée PAPL, qui résout le décalage entre l'entraînement et l'inférence dans les modèles de diffusion discrets en intégrant les stratégies de planification via une nouvelle borne inférieure de vraisemblance (P-ELBO), entraînant des performances significativement améliorées dans la génération de texte, de protéines et de code.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

Ce papier présente DAV, un cadre d'alignement des modèles de diffusion basé sur l'algorithme variationnel espérance-maximisation qui alterne entre une étape de recherche à l'exécution pour générer des échantillons diversifiés et une étape d'affinement du modèle, permettant d'optimiser les récompenses tout en évitant l'effondrement des modes sur des tâches continues et discrètes.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

Cet article propose un algorithme à deux étapes basé sur les bandits matriciels de faible rang pour minimiser la polarisation et le désaccord dans le modèle d'opinion de Friedkin-Johnsen en ligne, en apprenant les opinions innées des agents à partir de retours scalaires et en obtenant un regret cumulatif sous-optimal.

Federico Cinus, Yuko Kuroki, Atsushi Miyauchi, Francesco Bonchi2026-03-09🤖 cs.LG

Self-Speculative Masked Diffusions

Les auteurs proposent les « Self-Speculative Masked Diffusions », une nouvelle classe de modèles de diffusion masquée pour données discrètes qui réduit de moitié le nombre d'évaluations de réseau neuronal nécessaires à la génération d'échantillons de haute qualité en remplaçant la prédiction factorisée par une distribution prédictive non factorisée obtenue via un mécanisme d'échantillonnage spéculatif intégré.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet2026-03-09🤖 cs.LG

TCR-EML: Explainable Model Layers for TCR-pMHC Prediction

Ce papier propose TCR-EML, un modèle prédictif pour la liaison TCR-pMHC intégrant des couches explicatives basées sur des mécanismes biochimiques connus afin de concilier haute précision et interprétabilité, surpassant les approches actuelles en matière d'explicabilité.

Jiarui Li, Zixiang Yin, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Cet article démontre que les modèles de type « decoder-only » sont initialement moins performants que les modèles « encoder-only » pour l'adaptation aux équations aux dérivées partielles, mais propose deux nouvelles méthodes, le « Parallel Flipping » et le « Sequence Doubling », qui rétablissent leur efficacité en imitant la bidirectionnalité.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Cette étude démontre que le micro-benchmarking des modèles de langage est souvent peu fiable pour classer des modèles aux performances proches, révélant que des échantillons aléatoires peuvent être aussi efficaces que des méthodes sophistiquées et que des tailles d'échantillons beaucoup plus grandes sont nécessaires pour garantir une évaluation précise.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Le papier présente CanvasMAR, un modèle de prédiction vidéo autorégressif novateur qui améliore la qualité et la cohérence de la génération avec peu d'étapes en introduisant un « canevas » global flou comme prior structuré, complété par un curriculum d'apprentissage facile-difficile et un guidage conditionnel composite.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

← Précédent Suivant →