Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

Cet article démontre que l'ajustement supervisé (SFT) pondéré par une récompense exponentielle surpasse les méthodes RLHF pour l'alignement des systèmes de recommandation génératifs, car cette approche entièrement hors ligne est immunisée contre la triche des récompenses, ne nécessite pas de scores de propension et offre un compromis robuste entre performance et régularisation contrôlé par un seul paramètre de température.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Ce papier propose une nouvelle méthode de comparaison de datasets ancrée dans la géométrie, utilisant la décomposition en valeurs singulières généralisée (GSVD) pour définir un score d'angle interprétable par échantillon qui quantifie la contribution relative de chaque jeu de données à l'explication d'une observation.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Regime-aware financial volatility forecasting via in-context learning

Cet article propose un cadre d'apprentissage en contexte sensible aux régimes de marché qui utilise des modèles de langage préentraînés pour prévoir la volatilité financière sans ajustement des paramètres, en sélectionnant dynamiquement des démonstrations adaptées aux conditions actuelles pour surpasser les méthodes classiques, notamment lors des périodes de forte volatilité.

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi2026-03-12🤖 cs.LG

What do near-optimal learning rate schedules look like?

En factorisant la forme du programme d'apprentissage de son taux de base et en menant une recherche systématique sur divers modèles, cette étude démontre que les programmes couramment utilisés ne sont pas optimaux et révèle que l'échauffement, la décroissance et le poids de la régularisation sont des éléments déterminants pour définir des programmes d'apprentissage quasi-optimaux.

Hiroki Naganuma, Atish Agarwala, Priya Kasimbeg, George E. Dahl2026-03-12🤖 cs.LG

How to make the most of your masked language model for protein engineering

Cette étude propose une méthode d'échantillonnage flexible et efficace par recherche faisceau stochastique pour optimiser les modèles de langage masqués dans l'ingénierie des protéines, démontrant par des évaluations in silico et in vitro sur des anticorps thérapeutiques que le choix de la méthode d'échantillonnage est aussi déterminant que le modèle lui-même.

Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott2026-03-12🧬 q-bio

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Ce papier présente un cadre d'apprentissage d'opérateurs non locaux basé sur des noyaux d'intégration pilotés par les données qui séparent l'agrégation d'informations non locales de la prédiction non linéaire locale, permettant ainsi d'obtenir des modèles interprétables et parcimonieux pour la prévision des précipitations de la mousson asiatique.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Cet article résout le problème d'identification du meilleur bras dans des bandits linéaires non stationnaires en établissant une borne inférieure dépendante de l'ensemble des bras et en proposant l'algorithme Adjacent-BAI\textsf{Adjacent-BAI}, basé sur une conception optimale adjacente, qui atteint cette borne et affine ainsi la complexité de l'apprentissage au-delà des résultats minimax pessimistes.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam Fazel2026-03-12📊 stat

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

Ce papier présente HEAL, un cadre d'apprentissage sans renforcement qui surpasse les méthodes de distillation traditionnelles en surmontant la « limite de l'enseignant » grâce à une intervention active guidée par l'entropie, un filtrage rigoureux et une évolution progressive du curriculum inspirée de la zone de développement prochain.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Cet article propose les Graphes de Concepts Causaux (CCG), une méthode combinant des autoencodeurs épars et un apprentissage de structure différentiable pour cartographier les dépendances causales entre concepts dans l'espace latent des LLM, démontrant ainsi une supériorité significative sur les approches existantes pour le raisonnement étape par étape.

Md Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz2026-03-12🤖 cs.LG