cs.LG articles | Gist.Science

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Cette étude théorique et expérimentale révèle comment le mécanisme de superposition, permettant le raisonnement parallèle implicite dans la chaîne de pensée continue, émerge naturellement lors de l'entraînement d'un transformateur à deux couches sur le problème de l'accessibilité dans les graphes orientés grâce à un équilibre dynamique entre l'exploration et l'exploitation.

Hanlin Zhu, Shibo Hao, Zhiting Hu + 3 more2026-03-03🤖 cs.LG

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Ce papier propose une méthode novatrice permettant de mener plusieurs expériences de préentraînement simultanées au sein d'une seule exécution de formation, réduisant ainsi considérablement les coûts de calcul tout en validant la rigueur scientifique et la fiabilité des résultats sur des modèles de langage de grande taille.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Negative Pre-activations Differentiate Syntax

Cette étude démontre que les pré-activations négatives d'une sous-population sparse de neurones de type Wasserstein jouent un rôle actif et essentiel dans le traitement syntaxique des grands modèles de langage à activations lisses, contrairement à l'hypothèse précédente les considérant comme peu informatifs.

Linghao Kong, Angelina Ning, Micah Adler + 1 more2026-03-03🤖 cs.LG

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Cet article démontre que l'algorithme REINFORCE à base relative de groupe (GRPO) possède une interprétation nativement hors politique, offrant ainsi un cadre théorique unifié pour corriger les idées reçues sur son fonctionnement et guider la conception de nouvelles méthodes d'apprentissage par renforcement hors politique pour les grands modèles de langage.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

Cet article propose iMOOE, une méthode d'apprentissage invariant guidée par la physique qui définit un principe d'invariance à deux volets pour les équations aux dérivées partielles (EDP), permettant ainsi d'atteindre une généralisation zéro-shot supérieure sur des scénarios de prévision hors distribution grâce à une architecture d'experts d'opérateurs alignée sur l'invariance et un objectif d'apprentissage enrichi en fréquences.

Siyang Li, Yize Chen, Yan Guo + 2 more2026-03-03🤖 cs.AI

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Ce papier démontre que les courbes de perte des LLMs s'effondrent sur une trajectoire universelle lorsqu'ils sont entraînés avec des recettes d'optimisation optimales, offrant ainsi un outil puissant pour diagnostiquer précocement les pathologies d'entraînement et arrêter l'ajustement des hyperparamètres, ce qui a permis de développer la famille de modèles efficace *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Cet article propose un cadre innovant pour les modèles fondationnels massivement multimodaux qui améliore les architectures à mélange d'experts en y intégrant un routage guidé par les dépendances temporelles entre les modalités, permettant ainsi de mieux capturer les interactions complexes et d'obtenir des performances supérieures dans des domaines comme la santé et la reconnaissance d'activités.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

Distillation of Large Language Models via Concrete Score Matching

Cet article propose la Distillation par Score Concret (CSD), une nouvelle méthode de distillation de connaissances pour les grands modèles de langage qui surpasse les approches existantes en évitant le lissage des softmax et en respectant l'invariance des décalages de logits, permettant ainsi d'obtenir un meilleur compromis fidélité-diversité et une meilleure stabilité d'entraînement.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Ce papier présente AdaBlock-dLLM, une méthode d'inférence sans entraînement pour les modèles de diffusion linguistiques qui améliore la précision et l'efficacité en adaptant dynamiquement la taille des blocs de décodage aux structures sémantiques locales identifiées par l'analyse des dynamiques de confiance.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

Bayesian Influence Functions for Hessian-Free Data Attribution

Les auteurs proposent la fonction d'influence bayésienne locale (BIF), une méthode sans Hessien qui utilise des statistiques du paysage de perte estimées par échantillonnage MCMC pour attribuer efficacement l'influence des données dans des réseaux de neurones profonds à grande échelle.

Philipp Alexander Kreer, Wilson Wu, Maxwell Adam + 2 more2026-03-03🤖 cs.LG

Estimating Dimensionality of Neural Representations from Finite Samples

Ce papier propose un estimateur biais-correcté de la dimensionnalité globale des représentations neuronales, qui surmonte la sensibilité aux tailles d'échantillon des mesures existantes et permet une estimation précise aussi bien sur des données synthétiques que sur des enregistrements biologiques et des activations de modèles de langage.

Chanwoo Chun, Abdulkadir Canatar, SueYeon Chung + 1 more2026-03-03🧬 q-bio

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Le papier présente MENLO, un cadre d'évaluation et un jeu de données annotés par des humains pour 47 langues visant à mesurer et à améliorer la qualité native des réponses des grands modèles de langage grâce à l'apprentissage par renforcement et à l'alignement des préférences.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Per-example gradients: a new frontier for understanding and improving optimizers

Cet article démontre que le calcul efficace des gradients par exemple, via la chirurgie de graphes de différenciation automatique ou la vectorisation JAX, permet de réviser la conception des optimiseurs en révélant l'importance cruciale de la position de l'opération de signe dans signSGD et la supériorité de la moyenne sur la variance pour le préconditionneur Adam.

Vincent Roulet, Atish Agarwala2026-03-03🤖 cs.LG

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Cet article propose une analyse théorique fondée sur la dynamique des systèmes pour expliquer la perte de plasticité dans l'apprentissage profond, démontrant que les mécanismes favorisant la généralisation dans des environnements statiques, tels que la saturation des activations et la redondance des représentations, créent des pièges dynamiques qui empêchent l'adaptation future, tout en explorant des stratégies d'atténuation.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

A universal compression theory for lottery ticket hypothesis and neural scaling laws

Ce papier établit théoriquement que les grands réseaux de neurones et les vastes ensembles de données peuvent être compressés de manière asymptotique à des tailles polylogarithmiques tout en préservant leurs dynamiques d'apprentissage et leur paysage de perte, validant ainsi l'hypothèse des tickets de loterie dynamiques et permettant d'accélérer exponentiellement les lois d'échelle neuronales.

Hong-Yi Wang, Di Luo, Tomaso Poggio + 2 more2026-03-03📊 stat

LEAP: Local ECT-Based Learnable Positional Encodings for Graphs

Ce papier propose LEAP, une nouvelle méthode d'encodage positionnel local et apprenable pour les graphes, qui combine l'approximation différentiable de la transformée d'Euler (DECT) et sa variante locale ( $\ell$ -ECT) afin de surmonter les limites des réseaux de neurones sur graphes standards en intégrant des caractéristiques topologiques efficaces.

Juan Amboage, Ernst Röell, Patrick Schnider + 1 more2026-03-03🤖 cs.LG

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

Ce papier propose CAPO, un algorithme d'optimisation de politique conscient de la courbure qui améliore la stabilité et l'efficacité des échantillons de l'apprentissage par renforcement pour le raisonnement des grands modèles de langage en identifiant et en masquant les échantillons générant des mises à jour instables.

Luckeciano C. Melo, Alessandro Abate, Yarin Gal2026-03-03🤖 cs.AI

GEM: A Gym for Agentic LLMs

Ce papier présente GEM, un simulateur d'environnement open-source et standardisé conçu pour faciliter l'apprentissage par expérience des LLMs agents, offrant à la fois un cadre d'entraînement flexible, une suite d'environnements diversifiés et des outils d'évaluation complets.

Zichen Liu, Anya Sims, Keyu Duan + 16 more2026-03-03💬 cs.CL

RLP: Reinforcement as a Pretraining Objective

Ce papier présente RLP, une nouvelle méthode de préentraînement qui intègre l'apprentissage par renforcement en traitant la chaîne de pensée comme une action exploratoire récompensée par le gain d'information, permettant ainsi d'acquérir des capacités de raisonnement indépendantes dès la phase de préentraînement et d'améliorer significativement les performances sur des tâches complexes de mathématiques et de sciences.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

Learning to Play Multi-Follower Bayesian Stackelberg Games

Cet article propose des algorithmes d'apprentissage en ligne pour un leader dans des jeux de Stackelberg bayésiens à plusieurs suiveurs, établissant des bornes de regret sous-optimales qui ne croissent pas polynomialement avec le nombre de suiveurs, selon que le leader observe les types ou uniquement les actions des suiveurs.

Gerson Personnat, Tao Lin, Safwan Hossain + 1 more2026-03-03📈 econ

← Précédent Suivant →