cs.LG articles | Gist.Science

Identifying and Evaluating Inactive Heads in Pretrained LLMs

Cette étude propose et évalue douze fonctions de score pour identifier les têtes d'attention inactives dans les grands modèles de langage, démontrant que plus de 12 % de ces têtes peuvent être supprimées sans perte significative de performance et que les méthodes basées uniquement sur les poids d'attention sous-estiment considérablement ce phénomène.

Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda + 4 more2026-03-03🤖 cs.LG

Standardization of Weighted Ranking Correlation Coefficients

Cet article propose une fonction de standardisation générale qui transforme les coefficients de corrélation pondérés entre classements en une forme normalisée à espérance nulle sous l'hypothèse d'indépendance, en utilisant des estimations numériques basées sur l'échantillonnage Monte Carlo pour surmonter les difficultés de calcul liées aux grandes tailles d'échantillons.

Pierangelo Lombardo2026-03-03🔬 cond-mat

Standardization of Multi-Objective QUBOs

Cet article propose une nouvelle méthode de mise à l'échelle des objectifs QUBO multi-objectifs basée sur le calcul exact de leur variance pour les normaliser à une variance unitaire, facilitant ainsi leur équilibrage et leur combinaison par pondération égale sans nécessiter de sélection manuelle fastidieuse des poids.

Loong Kuan Lee, Thore Gerlach, Nico Piatkowski2026-03-03⚛️ quant-ph

Sparsification Under Siege: Dual-Level Defense Against Poisoning in Communication-Efficient Federated Learning

Cet article présente SafeSparse, un cadre de défense à double niveau qui résout le compromis entre robustesse et efficacité communicationnelle dans l'apprentissage fédéré en utilisant une calibration structurelle et un alignement sémantique directionnel pour contrer les attaques par empoisonnement lors de la sparsification des gradients.

Zhiyong Jin, Runhua Xu, Chao Li + 3 more2026-03-03🤖 cs.LG

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Ce papier présente deux nouveaux jeux de données pré-entraînés, SwallowCode et SwallowMath, générés par une méthode de réécriture systématique de données publiques qui améliore significativement les performances des grands modèles de langage en programmation et en raisonnement mathématique.

Kazuki Fujii, Yukito Tajima, Sakae Mizuki + 14 more2026-03-03🤖 cs.AI

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Cet article propose une méthode d'IA explicable permettant d'attribuer efficacement et précisément les distances de Wasserstein à divers composants des données, tels que des sous-groupes ou des caractéristiques, afin de mieux comprendre les décalages de distribution et les phénomènes de transport.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Diffusion Recommender Models and the Illusion of Progress: A Concerning Study of Reproducibility and a Conceptual Mismatch

Cette étude révèle que les modèles de recommandation basés sur la diffusion, malgré leur complexité, sont systématiquement surpassés par des approches plus simples en raison de problèmes méthodologiques persistants et d'un inadéquation conceptuelle avec la tâche de recommandation top-N, appelant ainsi à un changement radical dans la culture de recherche du domaine.

Michael Benigni, Maurizio Ferrari Dacrema, Dietmar Jannach2026-03-03🤖 cs.LG

ARCANE -- Early Detection of Interplanetary Coronal Mass Ejections

Cet article présente ARCANE, un cadre innovant utilisant le modèle ResUNet++ pour détecter précocement les éjections de masse coronale interplanétaires dans les flux de données solaires en temps réel, permettant une identification fiable des événements avant leur observation complète avec un léger compromis sur la précision par rapport aux données scientifiques haute résolution.

H. T. Rüdisser, G. Nguyen, J. Le Louëdec + 2 more2026-03-03🔭 astro-ph

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Cet article présente DRA-GRPO, une méthode plug-and-play qui améliore le raisonnement mathématique des LLMs en corrigeant l'inconsistance diversité-qualité du GRPO standard grâce à un ajustement de récompense basé sur la densité sémantique et l'information mutuelle sousmodulaire, permettant d'atteindre des performances supérieures avec peu de données et un coût réduit.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

Addition is almost all you need: Compressing large language models with double binary factorization

Ce papier propose la factorisation binaire double (DBF), une méthode innovante qui décompose les matrices de poids en produits de deux matrices binaires avec des vecteurs d'échelle pour compresser efficacement les grands modèles de langage tout en préservant leur précision et en offrant un contrôle fin des taux de compression.

Vladimír Boža, Vladimír Macko2026-03-03🤖 cs.LG

When Bias Meets Trainability: Connecting Theories of Initialization

Cet article démontre théoriquement que l'initialisation optimale pour l'apprentissage des réseaux de neurones profonds n'est pas neutre, mais repose systématiquement sur un biais initial envers une classe spécifique, reliant ainsi les théories de champ moyen aux préjugés de prédiction initiale.

Alberto Bassi, Marco Baity-Jesi, Aurelien Lucchi + 2 more2026-03-03🤖 cs.AI

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

Cet article présente la méthode de factorisation BISR (Banded Inverse Square Root), qui établit une borne optimale asymptotique pour l'erreur de factorisation matricielle dans l'apprentissage fédéré privé différentiellement sur plusieurs époques, tout en offrant une mise en œuvre plus simple et efficace que les méthodes existantes.

Nikita P. Kalinin, Ryan McKenna, Jalaj Upadhyay + 1 more2026-03-03🤖 cs.LG

Self-Destructive Language Model

Ce papier présente SEAM, une méthode de défense innovante qui transforme les grands modèles de langage en systèmes « autodestructeurs » capables de maintenir leurs performances sur des tâches légitimes tout en s'effondrant de manière catastrophique lorsqu'ils sont soumis à un fine-tuning malveillant, rendant ainsi les attaques contre leur alignement inefficaces.

Yuhui Wang, Rongyi Zhu, Ting Wang2026-03-03🤖 cs.AI

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Ce papier présente mCLM, un modèle de langage chimique modulaire qui génère des molécules fonctionnelles et synthétisables en les tokenisant sous forme de blocs de construction plutôt qu'atomes, surpassant ainsi les méthodes existantes en matière d'accessibilité synthétique et de propriétés chimiques.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Cette étude présente une analyse théorique démontrant que les transformateurs pré-entraînés de manière adversariale peuvent agir comme des modèles fondateurs universellement robustes, capables de s'adapter de manière résiliente à diverses tâches en aval via l'apprentissage contextuel sans nécessiter de réentraînement adversarial supplémentaire.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Le papier présente GradPCA, une méthode de détection hors distribution qui exploite la structure de rang faible des gradients induite par l'alignement du NTK via l'ACP, offrant des performances supérieures et un cadre théorique pour guider la conception de détecteurs spectraux.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Cette étude propose de nouvelles métriques pour évaluer la cohérence du routage local dans les modèles de type Mixture-of-Experts, révélant des compromis cruciaux entre l'équilibre de charge et l'efficacité du déchargement d'experts afin d'optimiser leur déploiement sur des dispositifs à mémoire limitée.

Jingcong Liang, Siyuan Wang, Miren Tian + 3 more2026-03-03🤖 cs.AI

ICYM2I: The illusion of multimodal informativeness under missingness

Ce papier présente ICYM2I, un cadre d'évaluation qui corrige les biais induits par les schémas de données manquantes pour estimer correctement le gain d'information des modèles multimodaux lors du passage d'un environnement source à un environnement cible.

Young Sang Choi, Vincent Jeanselme, Pierre Elias + 1 more2026-03-03📊 stat

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Ce papier propose la méthode NFT, une approche d'apprentissage supervisé qui exploite les réponses erronées pour permettre aux modèles de langage de s'améliorer de manière autonome en mathématiques, comblant ainsi le fossé théorique et pratique entre l'apprentissage supervisé et l'apprentissage par renforcement.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

Discovering and Steering Interpretable Concepts in Large Generative Music Models

Cet article présente une méthode évolutive utilisant des autoencodeurs parcimonieux pour découvrir et piloter des concepts interprétables, tant familiers que nouveaux, au sein des générateurs de musique autoregressifs, offrant ainsi un outil empirique pour révéler des principes d'organisation échappant aux analyses traditionnelles.

Nikhil Singh, Manuel Cherep, Pattie Maes2026-03-03⚡ eess

← Précédent Suivant →