cs.LG articles | Gist.Science

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Cet article propose l'« Implicit Error Counting » (IEC), une méthode d'apprentissage par renforcement sans référence qui remplace les rubriques d'évaluation par un comptage d'erreurs pondérées, démontrant ainsi son efficacité supérieure à l'approche « Rubrics as Rewards » pour le réessayage virtuel de vêtements où plusieurs réponses valides existent.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

The Value of Graph-based Encoding in NBA Salary Prediction

Cet article démontre que l'intégration d'encodages graphiques dérivés de données sur et hors terrain dans des modèles d'apprentissage supervisé améliore significativement la prédiction des salaires des joueurs de la NBA, en particulier pour les vétérans et les cas extrêmes où les approches tabulaires classiques échouent.

Junhao Su, David Grimsman, Christopher Archibald2026-03-09🤖 cs.LG

Reinforcement Learning for Power-Flow Network Analysis

Cet article propose l'utilisation de l'apprentissage par renforcement pour concevoir des réseaux électriques présentant un nombre d'équilibres de flux de puissance supérieur à la moyenne, surpassant ainsi les méthodes algébriques computationnelles actuelles pour les réseaux complexes.

Alperen Ergur, Julia Lindberg, Vinny Miller2026-03-09🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Cet article démontre que l'apprentissage d'un modèle fort à partir des labels imparfaits d'un modèle faible via la régression ridge à caractéristiques aléatoires permet d'améliorer substantiellement les lois d'échelle de l'erreur de test, permettant au modèle fort d'atteindre des taux optimaux même lorsque le modèle faible ne voit pas son erreur diminuer avec la taille de l'échantillon.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco Mondelli2026-03-09🤖 cs.LG

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir2026-03-09🤖 cs.LG

Warm Starting State-Space Models with Automata Learning

Ce papier établit une correspondance formelle entre les machines de Moore et les modèles d'espace d'état (SSM), démontrant que l'initialisation des SSMs par des automates appris symboliquement permet d'accélérer la convergence et d'améliorer la précision par rapport à une initialisation aléatoire.

William Fishell, Sam Nicholas Kouteili, Mark Santolucito2026-03-09🤖 cs.LG

Random Dot Product Graphs as Dynamical Systems: Limitations and Opportunities

Cet article établit un cadre géométrique basé sur les fibrés principaux pour analyser les limitations fondamentales et les opportunités de l'apprentissage des équations différentielles régissant l'évolution des réseaux temporels modélisés par des graphes à produit scalaire aléatoire, en démontrant que la structure dynamique peut résoudre l'ambiguïté de jauge tout en révélant un lien inextricable entre la difficulté géométrique et statistique.

Giulio Valentino Dalla Riva2026-03-09🤖 cs.LG

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Bien que l'intelligence artificielle promette d'accélérer la production d'informations climatiques, ce papier met en garde contre le risque qu'elle exacerbe les inégalités mondiales en raison d'une infrastructure inégale et de biais de données, et propose une transition vers des modèles centrés sur les données, des infrastructures numériques publiques et une co-production des connaissances pour garantir une résilience équitable.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Cette étude démontre que l'adaptation de domaine non supervisée, en particulier via la minimisation de la divergence maximale de moments (MMD), permet d'améliorer significativement la capacité d'un modèle d'identification de radioisotopes, entraîné sur des données synthétiques, à se généraliser à des environnements expérimentaux réels en utilisant des données cibles non étiquetées.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

En réexaminant l'alignement au moment de l'inférence sous l'angle du taux de victoire plutôt que de la récompense attendue, cette étude démontre que l'échantillonnage Best-of-N est statistiquement optimal et propose une variante simple qui élimine le piratage de la récompense tout en conservant cette optimalité.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

Full Dynamic Range Sky-Modelling For Image Based Lighting

Ce papier présente Icarus, un modèle de ciel tout-temps basé sur l'apprentissage profond capable de générer des cartes d'environnement en pleine plage dynamique (FDR) photoréalistes et contrôlables par l'utilisateur, surmontant ainsi les limitations des modèles actuels dans la reproduction précise des zones solaires et nuageuses pour l'éclairage basé sur l'image (IBL).

Ian J. Maquignaz2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Le papier présente MIRACL, un cadre d'apprentissage par renforcement méta multi-objectif hiérarchique qui permet une généralisation à peu d'exemples pour l'optimisation des chaînes d'approvisionnement multi-échelons en décomposant les tâches et en utilisant une stratégie d'adaptation basée sur la dominance de Pareto, surpassant ainsi les méthodes conventionnelles en termes d'efficacité et de diversité des solutions.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Ce papier propose SGPP, un cadre géométrique unifié qui reformule l'édition des modèles de flux rectifié comme un problème d'optimisation proximale guidée par le score, permettant ainsi de combiner efficacement la fidélité à l'entrée et la réalisme généré tout en généralisant les méthodes d'inversion existantes.

Vansh Bansal, James G Scott2026-03-09🤖 cs.LG

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Ce papier présente TML-Bench, un nouveau benchmark évaluant la fiabilité et les performances de dix modèles de langage open-source sur des tâches d'apprentissage automatique tabulaire de type Kaggle, en mesurant leur capacité à générer des soumissions valides et performantes sous différentes contraintes de temps.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Ce papier présente SCORE, une méthode de fusion de modèles qui améliore la généralisation de domaine en résolvant les conflits de sous-espaces singuliers entre modèles entraînés sur des distributions différentes grâce à la projection dans une base orthogonale partagée.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Cette étude propose l'hypothèse de sécurité désenchevêtrée (DSH), démontrant que les mécanismes de sécurité des grands modèles de langage séparent géométriquement la détection du danger de son refus, ce qui permet de créer des attaques efficaces en supprimant sélectivement la capacité d'agir tout en conservant la connaissance du risque.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Cet article introduit de nouvelles métriques d'alternation temporelles pour révéler que, dans le jeu de la Bataille des Exes multi-agents, les politiques apprises par Q-learning peuvent présenter des scores de justice élevés selon les mesures traditionnelles tout en échouant gravement à coordonner leurs actions dans le temps par rapport à des politiques aléatoires.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Sparse Crosscoders for diffing MoEs and Dense models

Cette étude utilise des crosscoders pour démontrer que les modèles Mixture of Experts (MoE) développent des représentations plus spécialisées et moins d'features uniques que les modèles denses, qui, eux, répartissent l'information sur des caractéristiques plus générales.

Marmik Chaudhari, Nishkal Hundia, Idhant Gulati2026-03-09🤖 cs.LG

MoE Lens -- An Expert Is All You Need

Cette étude démontre que les modèles Mixture of Experts (MoE) comme DeepSeekMoE reposent sur une expertise fortement concentrée, où un seul expert suffit souvent à approximer les performances de l'ensemble, ouvrant ainsi la voie à des optimisations d'inférence par élagage ciblé.

Marmik Chaudhari, Idhant Gulati, Nishkal Hundia, Pranav Karra, Shivam Raval2026-03-09🤖 cs.LG

← Précédent Suivant →