cs.LG articles | Gist.Science

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

Le papier présente LoRA-Ensemble, une méthode efficace et économe en paramètres pour l'ensemble de modèles dans les réseaux à attention, qui utilise des matrices de faible rang partagées pour surpasser les techniques implicites existantes et égaler les ensembles explicites en précision tout en offrant une meilleure calibration des incertitudes.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Fast Explanations via Policy Gradient-Optimized Explainer

Ce papier présente FEX, un nouveau cadre d'explication rapide basé sur le gradient de politique qui représente les attributions par des distributions de probabilité, permettant de réduire le temps d'inférence de plus de 97 % et l'utilisation de la mémoire de 70 % tout en maintenant une haute qualité d'explication pour des tâches de classification d'images et de texte.

Deng Pan, Nuno Moniz, Nitesh Chawla2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Cet article identifie et modélise théoriquement une phase de « corruption » lors du fine-tuning à peu d'exemples de modèles de diffusion, puis propose une solution basée sur les réseaux de neurones bayésiens qui atténue ce phénomène et améliore la fidélité et la diversité des images générées sans coût d'inférence supplémentaire.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Cet article propose DKDL-Net, un modèle léger de détection de défauts de roulements qui combine la distillation de connaissances découplée et le fine-tuning LoRA pour atteindre une précision de 99,48 % avec une complexité computationnelle réduite par rapport aux modèles existants.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Cet article propose un cadre sémiparamétrique structuré combinant des modèles de choix algorithmique et de réponse des spectateurs, ainsi qu'une extension de l'apprentissage automatique double (DML), pour estimer sans biais les effets des traitements dans les marchés à deux faces où l'interférence algorithmique fausse les expériences randomisées classiques.

Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang2026-03-10🤖 cs.LG

LAMBDA: A Large Model Based Data Agent

LAMBDA est un agent de données open-source et sans code basé sur des modèles de langage, qui orchestre un programmeur et un inspecteur pour générer et déboguer automatiquement du code, tout en permettant une intervention humaine et l'intégration de connaissances externes pour faciliter l'analyse de données.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

OTAD: An Optimal Transport-Induced Robust Model for Agnostic Adversarial Attack

Ce papier présente OTAD, un nouveau modèle de défense robuste qui combine l'entraînement de réseaux de neurones avec une régularisation par transport optimal et l'interpolation via un problème d'intégration convexe pour garantir une continuité de Lipschitz locale tout en maintenant une grande expressivité.

Kuo Gai, Sicong Wang, Shihua Zhang2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Cet article établit les fondements statistiques de l'estimateur de vraisemblance partielle maximale par mini-lots (mb-MPLE) pour les modèles de Cox profonds, démontrant sa consistance et son efficacité asymptotique tout en fournissant des directives pratiques pour l'optimisation par descente de gradient stochastique.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Cet article propose une méthode d'échantillonnage par importance recuit (AIS) couplée à une reparamétrisation efficace pour surmonter les limitations des modèles latents à processus gaussiens (GPLVM) dans les espaces de grande dimension, permettant ainsi d'obtenir des bornes variationnelles plus serrées et une convergence plus robuste que les méthodes actuelles.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

The Z-Gromov-Wasserstein Distance

Cet article introduit la distance $Z$ -Gromov-Wasserstein ( $Z$ -GW) comme un cadre unifié pour comparer des réseaux généralisés, démontrant qu'elle définit une métrique aux propriétés mathématiques robustes tout en offrant des bornes inférieures calculables pour des applications pratiques.

Martin Bauer, Facundo Mémoli, Tom Needham + 1 more2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Cette étude met en garde contre l'utilisation des explicateurs post hoc comme SHAP et LIME pour valider des hypothèses en recherche commerciale, démontrant que leur interprétation comme preuves de relations sous-jacentes dans les données est souvent erronée en raison de l'alignement imparfait et de l'effet Rashomon, et propose plutôt de les utiliser comme outils exploratoires.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Cet article propose une réévaluation rigoureuse de l'efficacité énergétique des réseaux de neurones à impulsions (SNN) en comparant des modèles équivalents à des réseaux de neurones quantifiés (QNN) via un modèle analytique complet, révélant ainsi les conditions spécifiques où les SNN surpassent réellement les QNN et peuvent doubler l'autonomie des appareils portables.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Cet article propose un réseau d'oscillateurs couplés (CON) qui modélise la dynamique des systèmes physiques dans un espace latent sous forme lagrangienne avec une stabilité prouvée, permettant ainsi un contrôle basé sur des modèles en boucle fermée performant utilisant uniquement des images brutes.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Le papier présente xTED, un cadre innovant utilisant un modèle de diffusion pour adapter directement les trajectoires d'un domaine source à un domaine cible, comblant ainsi les écarts de domaine au niveau des données tout en préservant le sens sémantique et en facilitant l'apprentissage de politiques sans nécessiter d'architectures complexes.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan2026-03-10🤖 cs.LG

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

Ce papier propose BNEM, un échantillonneur Boltzmann innovant basé sur l'apprentissage de l'énergie de données bruitées via un processus de diffusion et une technique de bootstrap, qui surpasse les méthodes existantes en termes de performance et de robustesse pour générer des échantillons IID.

RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Cet article établit que les méthodes de gradient de politique convergent vers une politique globalement optimale avec un taux non asymptotique pour une classe d'MDPs à horizon fini et espaces d'état et d'action généraux, en démontrant que leur paysage d'optimisation satisfait la condition Polyak-Łojasiewicz-Kurdyka, ce qui permet d'obtenir des garanties de complexité d'échantillonnage inédites pour des modèles opérationnels tels que les systèmes d'inventaire et les soldes de trésorerie stochastiques.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Cet article propose un cadre d'équations différentielles à retard neuronal (NDDE) inspiré du formalisme de Mori-Zwanzig pour apprendre efficacement des dynamiques non markoviennes à partir de systèmes partiellement observables, surpassant ainsi les méthodes existantes comme les réseaux LSTM et les ANODEs.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG

Open-World Reinforcement Learning over Long Short-Term Imagination

Le papier présente LS-Imagine, une méthode qui améliore l'efficacité de l'exploration dans les mondes ouverts en étendant l'horizon d'imagination via un modèle du monde à court et long terme, permettant ainsi aux agents d'apprendre des comportements orientés vers des récompenses à long terme.

Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang2026-03-10🤖 cs.LG

How Learning Dynamics Drive Adversarially Robust Generalization?

En modélisant l'entraînement adversarial comme un système dynamique discret, cette étude propose un cadre PAC-Bayésien qui explique mécanistiquement le surapprentissage robuste et analyse l'impact de la perturbation des poids adversariaux sur la généralisation.

Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Cette étude démontre que les transformers, utilisés en apprentissage en contexte, peuvent estimer implicitement les états cachés et prédire avec précision les sorties de systèmes dynamiques linéaires et non linéaires, rivalisant ainsi avec des méthodes de filtrage bayésien classiques comme le filtre de Kalman, sans nécessiter de mises à jour de gradient ni de connaissance explicite du modèle.

Usman Akram, Haris Vikalo2026-03-10🤖 cs.LG

← Précédent Suivant →