cs.LG articles | Gist.Science

ExGRPO: Learning to Reason from Experience

Ce papier propose ExGRPO, un cadre d'optimisation stratégique qui améliore l'efficacité et la stabilité de l'apprentissage par renforcement des modèles de raisonnement en réutilisant et en priorisant sélectivement les expériences passées les plus pertinentes, telles que celles caractérisées par leur justesse et leur entropie.

Runzhe Zhan, Yafu Li, Zhi Wang + 5 more2026-03-03💬 cs.CL

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Le papier présente DragFlow, un cadre innovant qui exploite les puissants priors du modèle DiT FLUX via une supervision basée sur des régions et des contraintes de gradient pour surmonter les limitations des méthodes de retouche par glissement traditionnelles et établir un nouvel état de l'art dans ce domaine.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

Understanding the Role of Training Data in Test-Time Scaling

Cet article établit théoriquement et expérimentalement que l'efficacité de l'augmentation du temps de calcul pour améliorer le raisonnement des modèles de langage dépend crucialement de la diversité, de la pertinence et de la difficulté des tâches présentes dans les données d'entraînement, révélant notamment que des compétences insuffisantes dans ces données peuvent dégrader les performances malgré un effort de calcul accru.

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni2026-03-03📊 stat

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Cet article démontre théoriquement et valide empiriquement que les modèles implicites, grâce à une analyse non paramétrique de leur puissance expressive, peuvent voir leur capacité à modéliser des fonctions complexes s'accroître avec le temps de calcul alloué lors du test, leur permettant d'atteindre des performances supérieures à celles des modèles explicites.

Jialin Liu, Lisang Ding, Stanley Osher + 1 more2026-03-03📊 stat

RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

Ce papier présente RACE Attention, une méthode d'attention strictement linéaire qui remplace l'attention Softmax par des projections gaussiennes et un hachage sensible à la localité, permettant un entraînement efficace sur des séquences extrêmement longues (jusqu'à 75 millions de tokens) tout en surpassant ou égalant les performances des modèles de base.

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala + 3 more2026-03-03🤖 cs.AI

What Scales in Cross-Entropy Scaling Law?

Cet article propose une décomposition de la perte d'entropie croisée révélant que seule la composante « erreur-entropie » suit une loi d'échelle robuste, expliquant ainsi pourquoi la loi d'échelle traditionnelle échoue aux très grandes échelles et établissant une nouvelle base théorique pour le développement des modèles de langage.

Junxi Yan, Zixi Wei, Qingyao Ai + 2 more2026-03-03💬 cs.CL

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

Le papier présente DRPO, une méthode novatrice qui découple les signaux de récompense pour les raisonnements corrects et incorrects afin de réduire efficacement la longueur des réponses des grands modèles de raisonnement sans compromettre significativement leurs performances.

Gang Li, Yan Chen, Ming Lin + 1 more2026-03-03🤖 cs.AI

Counterfactual Credit Guided Bayesian Optimization

Cet article présente CCGBO, une nouvelle méthode d'optimisation bayésienne qui améliore l'efficacité de la recherche de l'optimum global en quantifiant la contribution individuelle des observations passées via un crédit contrefactuel intégré à la fonction d'acquisition, garantissant ainsi une convergence accélérée avec une régression sous-linéaire.

Qiyu Wei, Haowei Wang, Richard Allmendinger + 1 more2026-03-03🤖 cs.LG

Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

Cet article présente les Directional Sheaf Hypergraph Networks (DSHN), un cadre novateur fondé sur la théorie des faisceaux cellulaires qui unifie et généralise les approches d'apprentissage sur les hypergraphes dirigés et non dirigés, permettant ainsi de surmonter les biais d'homophilie et d'obtenir des performances significativement supérieures sur des données réelles.

Emanuele Mule, Stefano Fiorini, Antonio Purificato + 3 more2026-03-03🤖 cs.LG

ResCP: Reservoir Conformal Prediction for Time Series Forecasting

Le papier propose ResCP, une méthode d'inférence conforme sans entraînement pour les séries temporelles qui utilise l'informatique en réservoir pour réévaluer dynamiquement les scores de conformité et garantir une couverture conditionnelle asymptotique tout en évitant le réentraînement coûteux.

Roberto Neglia, Andrea Cini, Michael M. Bronstein + 1 more2026-03-03📊 stat

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

Ce papier présente la distillation « boomerang », une méthode efficace permettant de générer des modèles intermédiaires de taille variable sans entraînement supplémentaire en partant d'un grand modèle enseignant, le réduisant à un petit modèle étudiant puis en réincorporant progressivement des couches de l'enseignant pour obtenir des performances lisses et compétitives entre les deux extrêmes.

Sara Kangaslahti, Nihal V. Nayak, Jonathan Geuter + 3 more2026-03-03🤖 cs.LG

Training Large Language Models To Reason In Parallel With Global Forking Tokens

Cet article propose une méthode d'entraînement nommée SSFT, combinée à une optimisation de politique (GFPO), qui utilise des tokens de bifurcation globaux pour préserver la diversité des modes de raisonnement parallèle et améliorer les performances des modèles de langage sur des tâches complexes de mathématiques et de génération de code.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan2026-03-03💬 cs.CL

Reference Grounded Skill Discovery

Cet article présente RGSD, un algorithme novateur qui ancre la découverte de compétences dans un espace latent sémantique grâce à des données de référence, permettant ainsi à des agents à haute dimensionnalité d'imiter et de découvrir des comportements variés tout en surclassant les méthodes d'apprentissage par imitation pour le respect des commandes de style.

Seungeun Rho, Aaron Trinh, Danfei Xu + 1 more2026-03-03🤖 cs.AI

Fourier Analysis on the Boolean Hypercube via Hoeffding Functional Decomposition

Cet article propose une généralisation ANOVA de l'analyse de Fourier sur l'hypercube booléen pour des mesures de probabilité arbitraires, en fournissant une base explicite, une méthode pour surmonter la malédiction de la dimensionnalité et une application concrète à l'IA explicable pour des espaces de configuration non uniformes.

Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa + 2 more2026-03-03📊 stat

t-SNE Exaggerates Clusters, Provably

Cet article démontre de manière théorique et pratique que le t-SNE exagère la structure des regroupements, rendant impossible l'inférence fiable de la force des clusters d'entrée ou de l'extrémité des points aberrants à partir de ses visualisations.

Noah Bergam, Szymon Snoeck, Nakul Verma2026-03-03🤖 cs.LG

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Ce papier présente TTOM, un cadre sans entraînement qui améliore la génération vidéo compositionnelle en alignant les modèles de fondation vidéo sur des layouts spatio-temporels via une optimisation et une mémorisation paramétriques en temps d'exécution.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

Le papier présente DISCO, une méthode simple et efficace qui sélectionne des échantillons en maximisant les désaccords entre les modèles pour condenser les données d'évaluation et réduire considérablement les coûts de calcul tout en maintenant une haute précision de prédiction.

Alexander Rubinstein, Benjamin Raible, Martin Gubri + 1 more2026-03-03🤖 cs.AI

Optimal Stopping in Latent Diffusion Models

Cette étude révèle que, contrairement aux modèles de diffusion conventionnels, les modèles de diffusion latents (LDM) bénéficient d'un arrêt anticipé pour améliorer la qualité des échantillons, un phénomène intrinsèque à la réduction de dimensionnalité où la dimension de l'espace latent détermine le moment optimal de l'arrêt.

Yu-Han Wu, Quentin Berthet, Gérard Biau + 3 more2026-03-03📊 stat

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Le papier présente PHyCLIP, une méthode qui unifie la hiérarchie et la compositionnalité dans l'apprentissage de représentations vision-langage en utilisant une métrique de produit $\ell_1$ sur des facteurs hyperboliques, surpassant ainsi les approches existantes sur diverses tâches d'évaluation.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator

Les auteurs proposent un modèle d'agent actor-critic couplé à un générateur de séquences inspiré de l'hippocampe qui, en exploitant la synergie entre les entrées visuelles égo-centriques clairsemées et une mémoire récurrente, résout efficacement des tâches de navigation et reproduit des phénomènes neurobiologiques clés comme la formation de champs de place.

Xiao-Xiong Lin, Yuk-Hoi Yiu, Christian Leibold2026-03-03🧬 q-bio

← Précédent Suivant →

cs.LG