Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Cette étude théorique et expérimentale révèle comment le mécanisme de superposition, permettant le raisonnement parallèle implicite dans la chaîne de pensée continue, émerge naturellement lors de l'entraînement d'un transformateur à deux couches sur le problème de l'accessibilité dans les graphes orientés grâce à un équilibre dynamique entre l'exploration et l'exploitation.

Hanlin Zhu, Shibo Hao, Zhiting Hu + 3 more2026-03-03🤖 cs.LG

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Cet article démontre que l'algorithme REINFORCE à base relative de groupe (GRPO) possède une interprétation nativement hors politique, offrant ainsi un cadre théorique unifié pour corriger les idées reçues sur son fonctionnement et guider la conception de nouvelles méthodes d'apprentissage par renforcement hors politique pour les grands modèles de langage.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

Cet article propose iMOOE, une méthode d'apprentissage invariant guidée par la physique qui définit un principe d'invariance à deux volets pour les équations aux dérivées partielles (EDP), permettant ainsi d'atteindre une généralisation zéro-shot supérieure sur des scénarios de prévision hors distribution grâce à une architecture d'experts d'opérateurs alignée sur l'invariance et un objectif d'apprentissage enrichi en fréquences.

Siyang Li, Yize Chen, Yan Guo + 2 more2026-03-03🤖 cs.AI

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Ce papier démontre que les courbes de perte des LLMs s'effondrent sur une trajectoire universelle lorsqu'ils sont entraînés avec des recettes d'optimisation optimales, offrant ainsi un outil puissant pour diagnostiquer précocement les pathologies d'entraînement et arrêter l'ajustement des hyperparamètres, ce qui a permis de développer la famille de modèles efficace *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Cet article propose un cadre innovant pour les modèles fondationnels massivement multimodaux qui améliore les architectures à mélange d'experts en y intégrant un routage guidé par les dépendances temporelles entre les modalités, permettant ainsi de mieux capturer les interactions complexes et d'obtenir des performances supérieures dans des domaines comme la santé et la reconnaissance d'activités.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

Distillation of Large Language Models via Concrete Score Matching

Cet article propose la Distillation par Score Concret (CSD), une nouvelle méthode de distillation de connaissances pour les grands modèles de langage qui surpasse les approches existantes en évitant le lissage des softmax et en respectant l'invariance des décalages de logits, permettant ainsi d'obtenir un meilleur compromis fidélité-diversité et une meilleure stabilité d'entraînement.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

Per-example gradients: a new frontier for understanding and improving optimizers

Cet article démontre que le calcul efficace des gradients par exemple, via la chirurgie de graphes de différenciation automatique ou la vectorisation JAX, permet de réviser la conception des optimiseurs en révélant l'importance cruciale de la position de l'opération de signe dans signSGD et la supériorité de la moyenne sur la variance pour le préconditionneur Adam.

Vincent Roulet, Atish Agarwala2026-03-03🤖 cs.LG

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Cet article propose une analyse théorique fondée sur la dynamique des systèmes pour expliquer la perte de plasticité dans l'apprentissage profond, démontrant que les mécanismes favorisant la généralisation dans des environnements statiques, tels que la saturation des activations et la redondance des représentations, créent des pièges dynamiques qui empêchent l'adaptation future, tout en explorant des stratégies d'atténuation.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

A universal compression theory for lottery ticket hypothesis and neural scaling laws

Ce papier établit théoriquement que les grands réseaux de neurones et les vastes ensembles de données peuvent être compressés de manière asymptotique à des tailles polylogarithmiques tout en préservant leurs dynamiques d'apprentissage et leur paysage de perte, validant ainsi l'hypothèse des tickets de loterie dynamiques et permettant d'accélérer exponentiellement les lois d'échelle neuronales.

Hong-Yi Wang, Di Luo, Tomaso Poggio + 2 more2026-03-03📊 stat

RLP: Reinforcement as a Pretraining Objective

Ce papier présente RLP, une nouvelle méthode de préentraînement qui intègre l'apprentissage par renforcement en traitant la chaîne de pensée comme une action exploratoire récompensée par le gain d'information, permettant ainsi d'acquérir des capacités de raisonnement indépendantes dès la phase de préentraînement et d'améliorer significativement les performances sur des tâches complexes de mathématiques et de sciences.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL