When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Cet article propose l'« Implicit Error Counting » (IEC), une méthode d'apprentissage par renforcement sans référence qui remplace les rubriques d'évaluation par un comptage d'erreurs pondérées, démontrant ainsi son efficacité supérieure à l'approche « Rubrics as Rewards » pour le réessayage virtuel de vêtements où plusieurs réponses valides existent.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Cet article démontre que l'apprentissage d'un modèle fort à partir des labels imparfaits d'un modèle faible via la régression ridge à caractéristiques aléatoires permet d'améliorer substantiellement les lois d'échelle de l'erreur de test, permettant au modèle fort d'atteindre des taux optimaux même lorsque le modèle faible ne voit pas son erreur diminuer avec la taille de l'échantillon.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco Mondelli2026-03-09🤖 cs.LG

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir2026-03-09🤖 cs.LG

Random Dot Product Graphs as Dynamical Systems: Limitations and Opportunities

Cet article établit un cadre géométrique basé sur les fibrés principaux pour analyser les limitations fondamentales et les opportunités de l'apprentissage des équations différentielles régissant l'évolution des réseaux temporels modélisés par des graphes à produit scalaire aléatoire, en démontrant que la structure dynamique peut résoudre l'ambiguïté de jauge tout en révélant un lien inextricable entre la difficulté géométrique et statistique.

Giulio Valentino Dalla Riva2026-03-09🤖 cs.LG

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Bien que l'intelligence artificielle promette d'accélérer la production d'informations climatiques, ce papier met en garde contre le risque qu'elle exacerbe les inégalités mondiales en raison d'une infrastructure inégale et de biais de données, et propose une transition vers des modèles centrés sur les données, des infrastructures numériques publiques et une co-production des connaissances pour garantir une résilience équitable.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Cette étude démontre que l'adaptation de domaine non supervisée, en particulier via la minimisation de la divergence maximale de moments (MMD), permet d'améliorer significativement la capacité d'un modèle d'identification de radioisotopes, entraîné sur des données synthétiques, à se généraliser à des environnements expérimentaux réels en utilisant des données cibles non étiquetées.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Le papier présente MIRACL, un cadre d'apprentissage par renforcement méta multi-objectif hiérarchique qui permet une généralisation à peu d'exemples pour l'optimisation des chaînes d'approvisionnement multi-échelons en décomposant les tâches et en utilisant une stratégie d'adaptation basée sur la dominance de Pareto, surpassant ainsi les méthodes conventionnelles en termes d'efficacité et de diversité des solutions.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Cette étude propose l'hypothèse de sécurité désenchevêtrée (DSH), démontrant que les mécanismes de sécurité des grands modèles de langage séparent géométriquement la détection du danger de son refus, ce qui permet de créer des attaques efficaces en supprimant sélectivement la capacité d'agir tout en conservant la connaissance du risque.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Cet article introduit de nouvelles métriques d'alternation temporelles pour révéler que, dans le jeu de la Bataille des Exes multi-agents, les politiques apprises par Q-learning peuvent présenter des scores de justice élevés selon les mesures traditionnelles tout en échouant gravement à coordonner leurs actions dans le temps par rapport à des politiques aléatoires.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG