cs.LG articles | Gist.Science

Marginals Before Conditionals

Cette étude révèle que les réseaux de neurones apprennent d'abord une distribution marginale, stabilisée par le bruit du gradient et caractérisée par un plateau de perte d'entropie conditionnelle, avant de subir une transition collective abrupte vers l'apprentissage complet de la conditionnalité une fois qu'une tête de routage sélective s'est assemblée.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Cet article présente les réseaux de neurones port-Hamiltoniens stochastiques (SPH-NN), une architecture garantissant la passivité et offrant une approximation universelle des systèmes dynamiques stochastiques dissipatifs, ce qui se traduit par une meilleure stabilité à long terme et une réduction des erreurs d'énergie par rapport aux réseaux de neurones classiques.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Cette étude propose une théorie quantitative de la phase « catapulte » dans l'entraînement par SGD de réseaux peu profonds à l'échelle NTK, en identifiant un critère explicite déterminant la probabilité d'apparition de pics d'optimisation massifs en fonction du taux d'apprentissage et des données.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

L'article présente Amnesia, une attaque légère par déviation d'activation dans l'espace des représentations qui permet de contourner les mécanismes de sécurité des grands modèles de langage à poids ouverts pour générer du contenu nuisible sans nécessiter de réentraînement.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Cet article propose un cadre d'apprentissage résiduel multi-étapes pour atténuer le biais de fréquence dans les modèles d'apprentissage automatique quantique, améliorant ainsi leur capacité à apprendre des fonctions complexes composées de multiples composantes fréquentielles.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

Cet article présente Multi-Level Concept Splitting (MLCS) et Deep-HiCEMs, deux approches capables de découvrir et de modéliser des hiérarchies de concepts multi-niveaux à partir d'une supervision de haut niveau, permettant ainsi des interventions interprétables à plusieurs niveaux d'abstraction tout en maintenant de hautes performances.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Le papier présente KernelSkill, un cadre multi-agents qui améliore l'optimisation des noyaux GPU en remplaçant les heuristiques implicites des modèles de langage par des compétences d'experts explicites et une architecture de mémoire double niveau, atteignant des accélérations significatives par rapport aux méthodes existantes.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Le papier présente ES-dLLM, un cadre d'accélération d'inférence sans entraînement pour les modèles de diffusion de langage (dLLM) qui améliore considérablement le débit en sautant dynamiquement les calculs dans les premières couches basés sur l'importance estimée des tokens, tout en préservant la qualité de génération.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Ce rapport de synthèse propose la première taxonomie unifiée de l'apprentissage dans l'espace des poids, catégorisant les méthodes en compréhension, représentation et génération pour exploiter la structure riche des poids des réseaux de neurones et faciliter des applications telles que la recherche de modèles et l'apprentissage fédéré.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

Le papier présente l'EAD, un modèle de diffusion équivariant et asynchrone doté d'un mécanisme de planification dynamique qui surpasse les méthodes existantes en générant des conformations moléculaires 3D en combinant les avantages des approches auto-régressives et synchrones.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Ce papier propose TS_Adam, une variante légère de l'optimiseur Adam qui élimine la correction de biais d'ordre deux pour améliorer la réactivité aux dérives de distribution dans les prévisions de séries temporelles non stationnaires, réduisant ainsi significativement les erreurs de prédiction sans ajouter d'hyperparamètres.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Cet article présente CSRO, un cadre novateur qui remplace les oracles d'apprentissage par renforcement par des modèles de langage pour générer des politiques multi-agents interprétables sous forme de code, tout en maintenant des performances compétitives.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Cet article présente BlueDown, une nouvelle méthode de post-traitement hiérarchique utilisant une régression par moindres carrés généralisés et des opérations algébriques succinctes pour améliorer la précision et la cohérence des données du recensement américain tout en respectant les mêmes garanties de confidentialité que le système TopDown actuel.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Cet article propose une méthode d'épissage « doux » basée sur un proxy de bit de poids fort intégré à une instruction RISC-V personnalisée, qui permet de réduire considérablement le nombre d'opérations MAC et la consommation énergétique des CNNs sur des dispositifs embarqués sans perte de précision, surpassant ainsi les techniques d'épissage traditionnelles.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Le papier CLIPO propose d'intégrer un mécanisme d'apprentissage contrastif à l'optimisation de politique pour généraliser l'apprentissage par renforcement avec récompenses vérifiables (RLVR), permettant ainsi de corriger les incohérences de raisonnement et les hallucinations en se concentrant sur la structure invariante des étapes intermédiaires correctes plutôt que sur le seul résultat final.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Cette paper démontre que le phénomène « Lost in the Middle », caractérisé par une courbe de performance en U, est une propriété géométrique inhérente aux transformateurs décodeurs causaux dès l'initialisation, résultant de la divergence logarithmique de l'influence au début du contexte et d'un ancrage résiduel à la fin, laissant une zone morte factorielle au milieu qui persiste même après l'entraînement standard.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Cet article propose une méthode d'apprentissage de dictionnaire pour le clustering non supervisé d'images hyperspectrales en utilisant des barycentres de Wasserstein non équilibrés afin de surmonter les limitations des approches précédentes liées à l'équilibrage des profils spectraux et à la sensibilité au bruit.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Cet article présente un opérateur neuronal intégré à un schéma numérique implicite capable de prédire avec une précision de 99,87 % les courbes de réponse en fréquence d'un système vibratoire linéaire en apprenant la dynamique sous-jacente à partir de données limitées, sans recourir à des fonctions de régularisation physiques explicites.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

L'article propose le « Mashup Learning », une méthode simple qui améliore l'adaptation des grands modèles de langage à de nouvelles tâches en fusionnant des checkpoints historiques pertinents pour servir d'initialisation, permettant ainsi d'accélérer la convergence et d'augmenter la précision par rapport à un apprentissage à partir de zéro.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Ce papier propose ReMix, une nouvelle méthode de routage par renforcement pour les mélanges de LoRAs qui, en remplaçant les poids de routage appris par des poids non appris et en utilisant une estimation de gradient RLOO, résout le problème d'imbalance des poids pour améliorer significativement la performance des modèles de grande taille finetunés de manière efficace en paramètres.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Précédent Suivant →