cs.LG articles | Gist.Science

IGLU: The Integrated Gaussian Linear Unit Activation Function

Ce papier présente IGLU, une nouvelle fonction d'activation paramétrique dérivée d'un mélange d'échelles de portes GELU avec une distribution mi-normale, qui offre une expression fermée basée sur la fonction de répartition de Cauchy pour garantir des gradients non nuls et une robustesse accrue, ainsi qu'une approximation rationnelle efficace (IGLU-Approx) qui démontre des performances compétitives ou supérieures sur des tâches de vision et de langage.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Le papier présente SymLang, un cadre unifié combinant des grammaires contraintes par la symétrie, la synthèse de programmes guidée par des modèles de langage et une sélection de modèles bayésienne pour découvrir avec précision et robustesse des équations gouvernantes interprétables à partir d'observations expérimentales bruitées et partielles.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

Cet article propose une méthode d'attention stochastique sans apprentissage, basée sur la dynamique de Langevin appliquée à l'énergie des réseaux de Hopfield modernes, qui permet de générer des sorties variées et novatrices tout en conservant la capacité de récupération exacte.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-10🤖 cs.LG

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Cette étude présente un modèle de substitution basé sur un opérateur neuronal informé par la physique (PINO) qui accélère de plus de 10 000 fois l'analyse de la rétention des mémoires NAND verticales ferroélectriques par rapport aux outils TCAD traditionnels, tout en préservant la précision physique nécessaire à l'optimisation des dispositifs.

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Single-pass Possibilistic Clustering with Damped Window Footprints

Cet article propose un algorithme de clustering possibiliste en un seul passage (SPC) conçu pour les flux de données, qui se distingue par sa capacité à modéliser des clusters non sphériques, à mettre à jour ses empreintes via des fenêtres amorties et à fusionner des estimations grâce à l'union de covariance, surpassant ainsi cinq autres algorithmes existants en termes de pureté et d'information mutuelle normalisée.

Jeffrey Dale, James Keller, Aquila Galusha2026-03-10🤖 cs.LG

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Cet article propose une nouvelle méthode d'augmentation de données qui utilise les grands modèles de langage pour générer des programmes CAO plus diversifiés et complexes, inspirés des procédures de conception industrielle, afin d'améliorer l'entraînement des modèles d'apprentissage profond pour la création de formes organiques.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

Ce papier démontre que, contrairement au cadre de décision attribut-conscient où la justice algorithmique améliore systématiquement les résultats du groupe défavorisé, le cadre attribut-aveugle peut entraîner un « nivellement par le bas » préjudiciable à tous les groupes selon la distribution des données.

Yi Yang, Xiangyu Chang, Pei-yu Chen2026-03-10🤖 cs.LG

XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost

XGenBoost propose deux modèles génératifs basés sur XGBoost pour synthétiser des données tabulaires de types mixtes, adaptés respectivement aux petits et aux grands jeux de données, surpassant les méthodes existantes avec un coût d'entraînement réduit.

Jim Achterberg, Marcel Haas, Bram van Dijk, Marco Spruit2026-03-10🤖 cs.LG

A Dynamic Self-Evolving Extraction System

Le papier présente DySECT, un système d'extraction dynamique et auto-évoluant qui améliore continuellement sa performance en boucle fermée en enrichissant une base de connaissances à partir des extractions d'un LLM, puis en utilisant cette connaissance accumulée pour affiner le modèle d'extraction.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

Ce papier propose une méthode efficace de fonction barrière de contrôle neuronale composite (CN-CBF), combinant plusieurs réseaux de neurones entraînés via la théorie de l'atteignabilité de Hamilton-Jacobi et une architecture résiduelle, pour garantir une navigation robotique sûre dans des environnements dynamiques avec des taux de réussite supérieurs aux méthodes existantes sans augmenter la conservatisme.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Le papier présente NerVE, un cadre unifié basé sur la dynamique du spectre propre qui permet de comprendre et d'optimiser le flux d'information dans les réseaux feed-forward des grands modèles de langage en reliant les signatures spectrales stables à la capacité de généralisation et aux choix architecturaux.

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Swimba: Switch Mamba Model Scales State Space Models

Ce papier présente Swimba, une méthode qui intègre des experts dans les modèles d'espace d'état sélectifs via un mélange de paramètres plutôt que de trajectoires d'état, permettant ainsi d'augmenter la capacité du modèle tout en maintenant un coût de récurrence dominant fixe.

Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen2026-03-10🤖 cs.LG

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

Cet article présente une approche combinant éléments finis et réseaux de neurones physiquement cohérents pour modéliser l'élasticité de Cosserat, intégrant des critères de validation basés sur la stabilité énergétique (quasi-convexité et inégalités de Legendre-Hadamard) pour garantir que les solutions apprises correspondent à des minimiseurs d'énergie stables.

Milad Shirani, Pete H. Gueldner, Murat Khidoyatov, Jeremy L. Warren, Federica Ninno2026-03-10🤖 cs.LG

Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments

Cet article propose les MDPs joints (JMDPs), un formalisme étendant les MDPs classiques pour modéliser les dépendances conjointes entre les contre-factuels d'actions via un modèle de transition multi-action, permettant ainsi le développement d'algorithmes de programmation dynamique et incrémentaux avec garanties de convergence pour les moments d'ordre supérieur des retours.

Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi2026-03-10🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Cette étude démontre que les représentations vectorielles (embeddings) de modèles fondationnels de l'ADN, partagées via des services EaaS, sont vulnérables à des attaques d'inversion permettant de reconstruire avec une grande précision les séquences génomiques sensibles, révélant ainsi des lacunes critiques dans la protection de la vie privée de ces outils.

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Cette étude démontre que la sparsification de graphes, en réduisant le nombre d'arêtes, constitue une étape de prétraitement légère et efficace qui accélère considérablement l'entraînement et l'inférence des réseaux de neurones graphiques (GNN) à grande échelle tout en préservant, voire en améliorant, leur précision.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki Kalavri2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Cet article démontre que l'entraînement par renforcement avec des récompenses de processus permet de surmonter la barrière de support du modèle de base et d'éviter la malédiction de la dimensionnalité, contrairement aux récompenses de résultats qui peuvent nécessiter un nombre exponentiel de requêtes pour dépasser le support initial.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Le papier présente Chart-RL, une méthode d'apprentissage par renforcement utilisant des récompenses mathématiquement vérifiables qui améliore significativement la compréhension des graphiques par les modèles vision-langage, démontrant que la complexité des tâches d'entraînement est plus déterminante que le volume de données pour obtenir une généralisation robuste et des capacités de raisonnement transférables.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Cette étude propose une méthode d'apprentissage par imitation qui, soutenue par une analyse théorique des cycles limites et des cartes de retour de Poincaré, permet d'entraîner des politiques de locomotion pour quadrupèdes robustes à partir de quelques secondes de démonstration uniquement en mode hors ligne.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Cet article propose un cadre d'oubli machine basé sur la méthode SISA pour la localisation des courts-circuits entre spires dans les transformateurs de puissance, permettant de supprimer efficacement l'influence des données empoisonnées en réentraînant uniquement les sous-ensembles affectés plutôt que le modèle entier, ce qui réduit considérablement le temps de calcul tout en maintenant une précision de diagnostic équivalente.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

← Précédent Suivant →