cs.LG articles | Gist.Science

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Le papier présente NerVE, un cadre unifié basé sur la dynamique du spectre propre qui permet de comprendre et d'optimiser le flux d'information dans les réseaux feed-forward des grands modèles de langage en reliant les signatures spectrales stables à la capacité de généralisation et aux choix architecturaux.

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Swimba: Switch Mamba Model Scales State Space Models

Ce papier présente Swimba, une méthode qui intègre des experts dans les modèles d'espace d'état sélectifs via un mélange de paramètres plutôt que de trajectoires d'état, permettant ainsi d'augmenter la capacité du modèle tout en maintenant un coût de récurrence dominant fixe.

Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen2026-03-10🤖 cs.LG

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

Cet article présente une approche combinant éléments finis et réseaux de neurones physiquement cohérents pour modéliser l'élasticité de Cosserat, intégrant des critères de validation basés sur la stabilité énergétique (quasi-convexité et inégalités de Legendre-Hadamard) pour garantir que les solutions apprises correspondent à des minimiseurs d'énergie stables.

Milad Shirani, Pete H. Gueldner, Murat Khidoyatov, Jeremy L. Warren, Federica Ninno2026-03-10🤖 cs.LG

Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments

Cet article propose les MDPs joints (JMDPs), un formalisme étendant les MDPs classiques pour modéliser les dépendances conjointes entre les contre-factuels d'actions via un modèle de transition multi-action, permettant ainsi le développement d'algorithmes de programmation dynamique et incrémentaux avec garanties de convergence pour les moments d'ordre supérieur des retours.

Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi2026-03-10🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Cette étude démontre que les représentations vectorielles (embeddings) de modèles fondationnels de l'ADN, partagées via des services EaaS, sont vulnérables à des attaques d'inversion permettant de reconstruire avec une grande précision les séquences génomiques sensibles, révélant ainsi des lacunes critiques dans la protection de la vie privée de ces outils.

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Cette étude démontre que la sparsification de graphes, en réduisant le nombre d'arêtes, constitue une étape de prétraitement légère et efficace qui accélère considérablement l'entraînement et l'inférence des réseaux de neurones graphiques (GNN) à grande échelle tout en préservant, voire en améliorant, leur précision.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki Kalavri2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Cet article démontre que l'entraînement par renforcement avec des récompenses de processus permet de surmonter la barrière de support du modèle de base et d'éviter la malédiction de la dimensionnalité, contrairement aux récompenses de résultats qui peuvent nécessiter un nombre exponentiel de requêtes pour dépasser le support initial.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Le papier présente Chart-RL, une méthode d'apprentissage par renforcement utilisant des récompenses mathématiquement vérifiables qui améliore significativement la compréhension des graphiques par les modèles vision-langage, démontrant que la complexité des tâches d'entraînement est plus déterminante que le volume de données pour obtenir une généralisation robuste et des capacités de raisonnement transférables.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Cette étude propose une méthode d'apprentissage par imitation qui, soutenue par une analyse théorique des cycles limites et des cartes de retour de Poincaré, permet d'entraîner des politiques de locomotion pour quadrupèdes robustes à partir de quelques secondes de démonstration uniquement en mode hors ligne.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Cet article propose un cadre d'oubli machine basé sur la méthode SISA pour la localisation des courts-circuits entre spires dans les transformateurs de puissance, permettant de supprimer efficacement l'influence des données empoisonnées en réentraînant uniquement les sous-ensembles affectés plutôt que le modèle entier, ce qui réduit considérablement le temps de calcul tout en maintenant une précision de diagnostic équivalente.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Cette étude présente un cadre d'apprentissage par renforcement sur graphes intégrant l'analyse topologique des données pour optimiser la reconfiguration et le délestage des réseaux de distribution d'électricité, améliorant ainsi significativement leur résilience face aux pannes et aux cyberattaques.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Ce papier propose le cadre CUOT et le modèle CUOTM pour surmonter la sensibilité aux outliers des cartes de transport optimal conditionnel classique en assouplissant les contraintes d'appariement des distributions via des pénalités de divergence de Csiszár, tout en préservant rigoureusement les marginales conditionnelles.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Ce papier propose NePPO, une nouvelle méthode d'optimisation de politique pour l'apprentissage par renforcement multi-agent dans des jeux à somme générale, qui apprend une fonction de potentiel commune pour approximer un équilibre de Nash et surpasse les approches existantes comme MAPPO et MADDPG.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Ce papier présente Diffusion Controller (DiffCon), un cadre unifié de théorie du contrôle qui reformule l'échantillonnage de diffusion inversée comme un problème de contrôle stochastique, permettant de développer des méthodes d'apprentissage par renforcement et une paramétrisation efficace par réseau secondaire pour améliorer l'alignement des préférences et l'efficacité de l'adaptation des modèles de diffusion préentraînés.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Cet article démontre que la régulation de l'équité basée uniquement sur l'absence d'effet moyen de traitement (ATE) peut masquer des inégalités causales significatives via un problème d'optimisation linéaire, soulignant la nécessité de passer d'une régulation au niveau des décisions à une régulation au niveau des modèles pour détecter ces biais cachés.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Cet article propose une méthode adaptative utilisant des modèles de langage multimodaux pour découvrir rapidement des attributs audio interprétables et améliorer la classification en ressources limitées, surpassant les approches humaines traditionnelles en efficacité et en rapidité.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Cet article propose un nouveau problème d'apprentissage en ligne appelé « Combinatorial Allocation Bandits » (CAB) pour les plateformes de mise en correspondance, qui vise à maximiser la satisfaction globale des utilisateurs plutôt que le simple nombre de correspondances, en développant et en évaluant des algorithmes basés sur la borne de confiance supérieure et l'échantillonnage de Thompson.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Ce papier présente Self-MOA, un cadre entièrement automatisé qui aligne les petits modèles de langage sur des objectifs de sécurité et d'utilité grâce à une supervision faible générée dynamiquement, réduisant ainsi la dépendance aux données annotées par des humains tout en améliorant la sécurité de 12,41 %.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Ce papier propose un cadre méthodologique pour extrapoler les effets de traitement dans le temps en utilisant des essais répétés ou des bras de traitement communs, permettant d'estimer l'effet moyen de traitement transporté (TATE) grâce à des estimateurs doublement robustes et semi-paramétriquement efficaces.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Le papier présente RESCHED, un cadre d'apprentissage par renforcement profond minimaliste basé sur l'architecture Transformer qui, en réduisant l'espace d'état à quatre caractéristiques essentielles et en éliminant les dépendances historiques, surpasse les méthodes existantes pour résoudre le problème d'ordonnancement flexible d'atelier tout en assurant une forte généralisation à d'autres variantes d'ordonnancement.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

← Précédent Suivant →