cs.LG articles | Gist.Science

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Ce papier propose le Rank-factorized Implicit Neural Bias (RIB), une méthode qui remplace le biais de position relatif pour permettre l'utilisation de FlashAttention dans les Transformers de super-résolution, permettant ainsi d'augmenter considérablement la taille des fenêtres d'attention et d'améliorer les performances tout en réduisant les temps d'entraînement et d'inférence.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

Ce papier présente un cadre de diffusion décentralisé hétérogène efficace qui permet d'entraîner des experts avec des objectifs variés (DDPM et Flow Matching) sur des ressources réduites, tout en assurant une convergence rapide et une qualité supérieure grâce à une conversion déterministe à l'inférence et à une architecture optimisée.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Cet article propose un cadre de génération contrainte qui affine un modèle génératif préentraîné pour produire des échantillons réalistes directement au sein de régions faisables complexes, telles que les cartes routières, en trouvant un compromis optimal entre le respect des contraintes et la qualité de l'échantillonnage.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

Ce papier propose StableDRL, une reformulation de l'optimisation par politique relative de groupe (GRPO) intégrant un recadrage inconditionnel et une auto-normalisation pour stabiliser l'apprentissage par renforcement dans les modèles de langage de diffusion et éviter l'effondrement des récompenses causé par le bruit des estimations de vraisemblance.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Le papier présente DIRECTER, une méthode de guidage d'activation dynamique qui améliore le suivi des instructions des grands modèles de langage en ajustant adaptativement la force de guidage via un mécanisme de rejet basé sur la plausibilité, permettant ainsi d'éviter le sur-guidage sans compromettre la qualité du texte généré.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

Ce papier présente ProtAlign, un cadre d'alignement de préférences multi-objectifs qui affine les modèles de repliement inverse pré-entraînés pour optimiser simultanément la fidélité structurelle et diverses propriétés de développabilité des protéines sans nécessiter de réentraînement ciblé.

Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang2026-03-10🤖 cs.LG

Latent Autoencoder Ensemble Kalman Filter for Data assimilation

Cet article propose le LAE-EnKF, une méthode d'assimilation de données qui améliore la précision et la stabilité des systèmes dynamiques non linéaires en reformulant le problème dans un espace latent appris où les évolutions sont linéaires et stables, tout en maintenant un coût computationnel comparable à celui du filtre de Kalman par ensemble standard.

Xin T. Tong, Yanyan Wang, Liang Yan2026-03-10🤖 cs.LG

Implementation of Quantum Implicit Neural Representation in Deterministic and Probabilistic Autoencoders for Image Reconstruction/Generation Tasks

Cette étude propose des autoencodeurs et autoencodeurs variationnels hybrides classiques-quantiques basés sur une représentation neurale implicite quantique (QINR) qui, en transformant l'espace latent en caractéristiques riches et périodiques, surpassent les modèles génératifs quantiques existants en termes de stabilité, de diversité et de qualité de reconstruction sur des jeux de données d'images.

Saadet Müzehher Eren2026-03-10⚛️ quant-ph

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

Cet article propose ICD3, une approche novatrice pour détecter les dérives de concepts dans des données en flux déséquilibrées en identifiant les concepts minoritaires via une recherche multi-granulaire et en surveillant chaque concept indépendamment grâce à des classifieurs à un seul cluster, surmontant ainsi l'effet de masquage des grands clusters.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Cet article propose un cadre d'explicabilité multi-niveaux validant la robustesse et la cohérence des explications SHAP à travers différentes architectures de modèles et stades de la maladie d'Alzheimer, démontrant que les marqueurs cognitifs et fonctionnels dominent de manière stable les prédictions de diagnostic et de pronostic.

Pablo Guillén, Enrique Frias-Martinez2026-03-10🤖 cs.LG

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Cet article propose une méthode de sélection de points de collocation pour les réseaux de neurones informés par la physique (PINN) qui reformule le problème comme la construction d'un coreset via une optimisation QUBO parcimonieuse et hybride, permettant de réduire les coûts de calcul tout en améliorant la précision et la diversité des points sélectionnés pour des équations aux dérivées partielles complexes.

Hadi Salloum, Maximilian Mifsud Bonici, Sinan Ibrahim, Pavel Osinenko, Alexei Kornaev2026-03-10🤖 cs.LG

Prediction of Steady-State Flow through Porous Media Using Machine Learning Models

Cette étude démontre que l'opérateur neuronal de Fourier (FNO), intégré dans un cadre d'apprentissage automatique, surpasse les architectures AE et U-Net ainsi que les méthodes CFD traditionnelles pour prédire efficacement et rapidement l'écoulement en régime permanent dans les milieux poreux, offrant ainsi une solution évolutive pour l'optimisation topologique des plaques froides.

Jinhong Wang, Matei C. Ignuta-Ciuncanu, Ricardo F. Martinez-Botas, Teng Cao2026-03-10🤖 cs.LG

Metalearning traffic assignment for network disruptions with graph convolutional neural networks

Cette étude propose une architecture combinant des réseaux de neurones à convolution graphique et l'apprentissage par méta-apprentissage pour permettre une adaptation rapide et précise des modèles de trafic à des réseaux routiers et des matrices OD inédits, notamment lors de perturbations majeures, atteignant un coefficient de détermination de 0,85 sur des scénarios non vus.

Serio Agriesti (Department of Technology, Management and Economics, Technical University of Denmark, Lyngby, Denmark), Guido Cantelmo (Department of Technology, Management and Economics, Technical University of Denmark, Lyngby, Denmark), Francisco Camara Pereira (Department of Technology, Management and Economics, Technical University of Denmark, Lyngby, Denmark)2026-03-10🤖 cs.LG

Failure Detection in Chemical Processes using Symbolic Machine Learning: A Case Study on Ethylene Oxidation

Cette étude démontre que l'apprentissage machine symbolique, appliqué à des données simulées d'oxydation de l'éthylène, surpasse les méthodes baselines tout en offrant des modèles prédictifs interprétables pour la détection de défaillances dans les procédés chimiques.

Julien Amblard, Niklas Groll, Matthew Tait, Mark Law, Gürkan Sin, Alessandra Russo2026-03-10🤖 cs.LG

Gauge Freedom and Metric Dependence in Neural Representation Spaces

Cet article démontre que les représentations neuronales possèdent une liberté de jauge sous l'action du groupe linéaire général, ce qui rend des métriques courantes comme la similarité cosinus dépendantes du système de coordonnées et instables, suggérant ainsi que l'analyse des représentations doit se concentrer sur des quantités invariantes ou des coordonnées canoniques.

Jericho Cain2026-03-10🤖 cs.LG

HGT-Scheduler: Deep Reinforcement Learning for the Job Shop Scheduling Problem via Heterogeneous Graph Transformers

Cet article présente le HGT-Scheduler, une approche d'apprentissage par renforcement utilisant des Transformers sur graphes hétérogènes pour modéliser les relations distinctes du problème d'ordonnancement d'atelier, démontrant ainsi une supériorité statistique par rapport aux modèles homogènes sur les instances de référence Fisher-Thompson.

Bulent Soykan2026-03-10🤖 cs.LG

SpatialMAGIC: A Hybrid Framework Integrating Graph Diffusion and Spatial Attention for Spatial Transcriptomics Imputation

Le papier présente SpatialMAGIC, un cadre hybride innovant combinant la diffusion graphique et l'attention spatiale pour imputer les données de transcriptomique spatiale, surmontant ainsi le bruit technique et la sparsité tout en améliorant la précision du regroupement et la détection des gènes biologiquement pertinents.

Sayeem Bin Zaman, Fahim Hafiz, Riasat Azim2026-03-10🤖 cs.LG

xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

Le papier présente xaitimesynth, un package Python open source qui fournit une infrastructure réutilisable pour évaluer les méthodes d'attribution sur des séries temporelles en générant des données synthétiques avec un vérité terrain connue et en offrant des métriques de localisation standardisées.

Gregor Baer2026-03-10🤖 cs.LG

Physics-Informed Diffusion Model for Generating Synthetic Extreme Rare Weather Events Data

Ce papier propose un modèle de diffusion informé par la physique basé sur l'architecture Context-UNet pour générer des images satellites synthétiques d'événements météorologiques extrêmes rares, afin de surmonter le manque de données et d'améliorer la détection des cyclones tropicaux.

Marawan Yakout, Tannistha Maiti, Monira Majhabeen, Tarry Singh2026-03-10🤖 cs.LG

Optimistic Policy Regularization

Ce papier présente l'Optimistic Policy Regularization (OPR), une méthode légère qui améliore l'efficacité des échantillons et les performances finales des agents d'apprentissage par renforcement en ancrant les mises à jour de la politique sur des trajectoires historiquement réussies, surpassant ainsi les méthodes de base sur des benchmarks Atari et de cyberguerre.

Mai Pham, Vikrant Vaze, Peter Chin2026-03-10🤖 cs.LG

← Précédent Suivant →