cs.LG articles | Gist.Science

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

Cette étude démontre que la capacité des petits modèles de langage à inférer des propriétés de graphes dépend moins de leur échelle que de l'organisation des représentations des données relationnelles et des stratégies d'inférence employées.

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

Ce papier présente SmartBench, le premier jeu de données conçu pour évaluer la capacité des grands modèles de langage à détecter et gérer des états anormaux dans les maisons intelligentes, révélant que les modèles actuels, y compris les plus avancés, obtiennent des performances insuffisantes sur cette tâche critique.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

Le papier présente HEARTS, un benchmark unifié évaluant les capacités de raisonnement hiérarchique des grands modèles de langage sur 16 jeux de données de santé réels, révélant que ces modèles sous-performent les modèles spécialisés et peinent à gérer la complexité temporelle malgré leur échelle.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Le papier présente RECAP, une stratégie d'apprentissage bio-inspirée qui associe la dynamique d'un réservoir non entraîné à une lecture auto-organisée par prototypes hebbiens pour réaliser une classification d'images robuste sans recours à la rétropropagation de l'erreur.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Cet article révèle que l'effacement par élagage des modèles de diffusion est vulnérable à une attaque de « résurrection de concept » totalement sans données ni réentraînement, car les positions des poids élagués peuvent servir de canal latéral pour restaurer les concepts supprimés, incitant ainsi à développer des mécanismes d'élagage plus sûrs qui masquent ces localisations.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

Le papier présente SR-TTT, une méthode qui améliore la rétention d'informations des modèles de langage à entraînement au moment du test en acheminant dynamiquement uniquement les tokens surprenants et incompressibles vers un cache d'attention résiduel, préservant ainsi une complexité mémoire constante tout en évitant les oublis catastrophiques lors de tâches de rappel précis.

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

Cette revue complète définit l'apprentissage profond quantique (QDL) à travers une taxonomie de quatre paradigmes, évalue de manière critique les avantages quantiques et les compromis pratiques sur diverses plateformes matérielles, et propose une feuille de route pour son passage des démonstrations actuelles à des implémentations évolutives et tolérantes aux pannes.

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Cet article propose un cadre d'apprentissage fédéré sensible à la confiance intégrant un mécanisme de filtrage adaptatif pour interpréter les stades de guérison osseuse à partir de données spectrales, permettant ainsi de sécuriser les environnements de détection médicale distribuée en atténuant l'impact des participants malveillants tout en préservant la performance du modèle.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

Ce papier présente HURRI-GAN, une approche novatrice utilisant des réseaux antagonistes génératifs (GAN) pour corriger les biais des modèles physiques de simulation d'ouragans au-delà des stations de jaugeage, permettant ainsi d'accélérer les prévisions sans sacrifier la précision.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

Cet article présente la descente de gradient géodésique (GGD), un algorithme d'optimisation générique et sans taux d'apprentissage qui approxime localement la géométrie de la fonction objectif par une sphère pour maintenir les trajectoires de mise à jour sur l'hypersurface, démontrant ainsi des performances supérieures à l'algorithme Adam sur divers jeux de données.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

How the Graph Construction Technique Shapes Performance in IoT Botnet Detection

Cette étude démontre que la méthode de construction du graphe influence significativement la performance de détection des botnets IoT, le graphe de Gabriel surpassant les autres techniques avec une précision de 97,56 % lorsqu'il est couplé à un autoencodeur variationnel et un réseau de neurones à attention graphique.

Hassan Wasswa, Hussein Abbass, Timothy Lynar2026-03-10🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Ce papier présente PAG, un nouveau cadre de recherche de voisins les plus proches approximatifs qui intègre des techniques de projection dans un index graphique pour répondre simultanément aux exigences de performance, de mémoire et d'évolutivité des applications d'IA modernes, surpassant ainsi HNSW en vitesse de requête tout en conservant une précision élevée.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan Xiao2026-03-10🤖 cs.LG

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Ce papier présente EnsAug, une nouvelle méthode d'apprentissage qui améliore l'analyse des mouvements humains en entraînant un ensemble de modèles spécialisés sur des transformations géométriques distinctes, surpassant ainsi les approches conventionnelles et atteignant des performances de pointe sur des tâches de reconnaissance de la langue des signes et d'activités humaines.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Le papier présente HyperTokens, une méthode utilisant un générateur de tokens et des régularisations inspirées du méta-apprentissage pour maîtriser la dynamique des tokens et réduire l'oubli dans la compréhension vidéo-linguistique continue, tout en maintenant une mémoire fixe et en améliorant les performances sur des benchmarks standards et des protocoles de transfert transmodal.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Ce papier présente ERP-RiskBench, un cadre expérimental restructuré et sécurisé contre les fuites de données pour la détection des risques financiers dans les systèmes ERP, démontrant qu'une méthode d'ensemble de type stacking offre des performances supérieures tout en fournissant une base reproductible pour l'audit et la gouvernance.

Sanjay Mishra2026-03-10🤖 cs.LG

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Cet article propose une méthode d'apprentissage profond non supervisée, basée sur un autoencodeur convolutif et une nouvelle fonction de perte de distance angulaire spectrale pondérée, pour décomposer automatiquement et objectivement les images hyperspectrales infrarouges de coupes transversales de peintures à l'huile historiques, comme démontré sur le Retable de Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

GNN For Muon Particle Momentum estimation

Cet article démontre que l'utilisation de réseaux de neurones graphiques (GNN) pour estimer la quantité de mouvement des muons dans l'expérience CMS du LHC surpasse les modèles traditionnels comme TabNet, tout en soulignant l'importance cruciale de la dimension des caractéristiques des nœuds pour l'efficacité du modèle.

Vishak K Bhat, Eric A. F. Reinhardt, Sergei Gleyzer2026-03-10🤖 cs.LG

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Cette étude propose un modèle hybride de classification combinant l'apprentissage par quelques exemples (FSL) et l'intelligence artificielle explicable (XAI) pour identifier avec précision et transparence les maladies des feuilles de maïs, de riz et de blé, même avec des données annotées limitées.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

One step further with Monte-Carlo sampler to guide diffusion better

Cette proposition introduit une stratégie plug-and-play combinant une étape de débruitage inverse supplémentaire et un échantillonnage Monte-Carlo (ABMS) pour réduire les erreurs d'estimation des gradients et améliorer la qualité de la génération guidée dans les modèles de diffusion basés sur les équations différentielles stochastiques.

Minsi Ren, Wenhao Deng, Ruiqi Feng, Tailin Wu2026-03-10🤖 cs.LG

← Précédent Suivant →