cs.LG articles | Gist.Science

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Cette étude révèle que les modèles de récompense de processus (PRM) actuels sont systématiquement vulnérables aux attaques adverses en raison d'une dissociation entre la fluidité et la logique, les transformant en détecteurs de style plutôt qu'en vérificateurs de raisonnement, et propose un cadre de diagnostic et des outils pour évaluer leur robustesse avant déploiement.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Cette étude démontre que le modèle Transformer, grâce à son mécanisme d'attention, surpasse les approches traditionnelles comme ARIMA et les réseaux LSTM pour la prévision précise de la charge électrique à court terme sur les données du PJM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Cette étude propose une revue complète des avancées méthodologiques et des applications diversifiées de Flow-GRPO, un cadre d'apprentissage par renforcement qui étend l'optimisation stratégique relative de groupe aux modèles de génération pour mieux aligner leurs sorties sur les préférences humaines.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Cet article présente la Théorie de l'Espace d'Exploration (EST), un cadre formel fondé sur la théorie des espaces de connaissances qui modélise les dépendances prérequis entre lieux d'intérêt via des treillis distributifs, permettant ainsi de concevoir un système de recommandation géolocalisée garantissant mathématiquement la validité structurelle de chaque étape d'exploration.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Cet article propose une méthode d'imputation des données manquantes sur l'état des chaussées en utilisant un réseau de neurones à graphes basé sur l'apprentissage collectif, capable de capturer les dépendances entre les sections adjacentes pour fournir des estimations plus précises que les approches traditionnelles.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Le papier présente Grouter, une méthode de routage préemptive qui découple l'optimisation structurelle de la mise à jour des poids en utilisant des structures distillées pour accélérer significativement l'entraînement des modèles MoE et améliorer leur convergence.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Ce papier présente T-REX, une architecture de transformateur innovante conçue pour Amazon qui améliore les recommandations de paniers d'épicerie en générant des séquences de catégories personnalisées grâce à un masquage causal et des stratégies d'échantillonnage adaptées aux achats répétitifs.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

Cet article présente un protocole d'extraction de caractéristiques graphiques temporelles et causales, exempt de fuite de données, qui améliore l'interprétabilité et la détection des fraudes dans les réseaux de transactions en fournissant des signaux structurels complémentaires aux attributs transactionnels.

Hamideh Khaleghpour, Brett McKinney2026-03-10🤖 cs.LG

A new Uncertainty Principle in Machine Learning

Cet article propose un nouveau principe d'incertitude en apprentissage automatique, analogue à celui de la physique, qui explique comment la dégénérescence des expansions de Heaviside et sigmoïdes piège les algorithmes d'optimisation dans des minima locaux, transformant ainsi des problèmes informatiques en défis physiques fondamentaux.

V. Dolotin, A. Morozov2026-03-10🤖 cs.LG

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

Cette étude démontre que la capacité des petits modèles de langage à inférer des propriétés de graphes dépend moins de leur échelle que de l'organisation des représentations des données relationnelles et des stratégies d'inférence employées.

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

Ce papier présente SmartBench, le premier jeu de données conçu pour évaluer la capacité des grands modèles de langage à détecter et gérer des états anormaux dans les maisons intelligentes, révélant que les modèles actuels, y compris les plus avancés, obtiennent des performances insuffisantes sur cette tâche critique.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

Le papier présente HEARTS, un benchmark unifié évaluant les capacités de raisonnement hiérarchique des grands modèles de langage sur 16 jeux de données de santé réels, révélant que ces modèles sous-performent les modèles spécialisés et peinent à gérer la complexité temporelle malgré leur échelle.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Le papier présente RECAP, une stratégie d'apprentissage bio-inspirée qui associe la dynamique d'un réservoir non entraîné à une lecture auto-organisée par prototypes hebbiens pour réaliser une classification d'images robuste sans recours à la rétropropagation de l'erreur.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Cet article révèle que l'effacement par élagage des modèles de diffusion est vulnérable à une attaque de « résurrection de concept » totalement sans données ni réentraînement, car les positions des poids élagués peuvent servir de canal latéral pour restaurer les concepts supprimés, incitant ainsi à développer des mécanismes d'élagage plus sûrs qui masquent ces localisations.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

Le papier présente SR-TTT, une méthode qui améliore la rétention d'informations des modèles de langage à entraînement au moment du test en acheminant dynamiquement uniquement les tokens surprenants et incompressibles vers un cache d'attention résiduel, préservant ainsi une complexité mémoire constante tout en évitant les oublis catastrophiques lors de tâches de rappel précis.

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

Cette revue complète définit l'apprentissage profond quantique (QDL) à travers une taxonomie de quatre paradigmes, évalue de manière critique les avantages quantiques et les compromis pratiques sur diverses plateformes matérielles, et propose une feuille de route pour son passage des démonstrations actuelles à des implémentations évolutives et tolérantes aux pannes.

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Cet article propose un cadre d'apprentissage fédéré sensible à la confiance intégrant un mécanisme de filtrage adaptatif pour interpréter les stades de guérison osseuse à partir de données spectrales, permettant ainsi de sécuriser les environnements de détection médicale distribuée en atténuant l'impact des participants malveillants tout en préservant la performance du modèle.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

Ce papier présente HURRI-GAN, une approche novatrice utilisant des réseaux antagonistes génératifs (GAN) pour corriger les biais des modèles physiques de simulation d'ouragans au-delà des stations de jaugeage, permettant ainsi d'accélérer les prévisions sans sacrifier la précision.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

Cet article présente la descente de gradient géodésique (GGD), un algorithme d'optimisation générique et sans taux d'apprentissage qui approxime localement la géométrie de la fonction objectif par une sphère pour maintenir les trajectoires de mise à jour sur l'hypersurface, démontrant ainsi des performances supérieures à l'algorithme Adam sur divers jeux de données.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

How the Graph Construction Technique Shapes Performance in IoT Botnet Detection

Cette étude démontre que la méthode de construction du graphe influence significativement la performance de détection des botnets IoT, le graphe de Gabriel surpassant les autres techniques avec une précision de 97,56 % lorsqu'il est couplé à un autoencodeur variationnel et un réseau de neurones à attention graphique.

Hassan Wasswa, Hussein Abbass, Timothy Lynar2026-03-10🤖 cs.LG

← Précédent Suivant →