Understanding the Role of Training Data in Test-Time Scaling

Cet article établit théoriquement et expérimentalement que l'efficacité de l'augmentation du temps de calcul pour améliorer le raisonnement des modèles de langage dépend crucialement de la diversité, de la pertinence et de la difficulté des tâches présentes dans les données d'entraînement, révélant notamment que des compétences insuffisantes dans ces données peuvent dégrader les performances malgré un effort de calcul accru.

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni2026-03-03📊 stat

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Cet article démontre théoriquement et valide empiriquement que les modèles implicites, grâce à une analyse non paramétrique de leur puissance expressive, peuvent voir leur capacité à modéliser des fonctions complexes s'accroître avec le temps de calcul alloué lors du test, leur permettant d'atteindre des performances supérieures à celles des modèles explicites.

Jialin Liu, Lisang Ding, Stanley Osher + 1 more2026-03-03📊 stat

RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

Ce papier présente RACE Attention, une méthode d'attention strictement linéaire qui remplace l'attention Softmax par des projections gaussiennes et un hachage sensible à la localité, permettant un entraînement efficace sur des séquences extrêmement longues (jusqu'à 75 millions de tokens) tout en surpassant ou égalant les performances des modèles de base.

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala + 3 more2026-03-03🤖 cs.AI

Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

Cet article présente les Directional Sheaf Hypergraph Networks (DSHN), un cadre novateur fondé sur la théorie des faisceaux cellulaires qui unifie et généralise les approches d'apprentissage sur les hypergraphes dirigés et non dirigés, permettant ainsi de surmonter les biais d'homophilie et d'obtenir des performances significativement supérieures sur des données réelles.

Emanuele Mule, Stefano Fiorini, Antonio Purificato + 3 more2026-03-03🤖 cs.LG

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

Ce papier présente la distillation « boomerang », une méthode efficace permettant de générer des modèles intermédiaires de taille variable sans entraînement supplémentaire en partant d'un grand modèle enseignant, le réduisant à un petit modèle étudiant puis en réincorporant progressivement des couches de l'enseignant pour obtenir des performances lisses et compétitives entre les deux extrêmes.

Sara Kangaslahti, Nihal V. Nayak, Jonathan Geuter + 3 more2026-03-03🤖 cs.LG

Training Large Language Models To Reason In Parallel With Global Forking Tokens

Cet article propose une méthode d'entraînement nommée SSFT, combinée à une optimisation de politique (GFPO), qui utilise des tokens de bifurcation globaux pour préserver la diversité des modes de raisonnement parallèle et améliorer les performances des modèles de langage sur des tâches complexes de mathématiques et de génération de code.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan2026-03-03💬 cs.CL

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Le papier présente PHyCLIP, une méthode qui unifie la hiérarchie et la compositionnalité dans l'apprentissage de représentations vision-langage en utilisant une métrique de produit 1\ell_1 sur des facteurs hyperboliques, surpassant ainsi les approches existantes sur diverses tâches d'évaluation.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator

Les auteurs proposent un modèle d'agent actor-critic couplé à un générateur de séquences inspiré de l'hippocampe qui, en exploitant la synergie entre les entrées visuelles égo-centriques clairsemées et une mémoire récurrente, résout efficacement des tâches de navigation et reproduit des phénomènes neurobiologiques clés comme la formation de champs de place.

Xiao-Xiong Lin, Yuk-Hoi Yiu, Christian Leibold2026-03-03🧬 q-bio