Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

El artículo demuestra que el ajuste fino supervisado (SFT) ponderado exponencialmente por recompensas es un método post-entrenamiento robusto, escalable y superior al RLHF para sistemas generativos de recomendación, ya que evita el fraude de recompensas, no requiere puntuaciones de propensión y ofrece garantías teóricas de mejora de la política bajo feedback ruidoso.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Este artículo propone el uso de la descomposición en valores singulares generalizada (GSVD) para comparar conjuntos de datos basándose en su geometría subyacente, derivando una "puntuación angular" interpretable que diagnostica si una muestra se explica mejor por uno u otro conjunto de datos o por ambos.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

What do near-optimal learning rate schedules look like?

Este artículo presenta un procedimiento de búsqueda para identificar formas de programación de la tasa de aprendizaje casi óptimas, revelando que el calentamiento y la decadencia son características robustas esenciales, mientras que las familias de programas comunes no son óptimas y la forma ideal depende significativamente de hiperparámetros como la descomposición de pesos.

Hiroki Naganuma, Atish Agarwala, Priya Kasimbeg, George E. Dahl2026-03-12🤖 cs.LG

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

El artículo presenta un marco de aprendizaje de operadores no locales basado en kernels de integración impulsados por datos que separan la agregación de información no local de la predicción no lineal local, logrando modelos interpretables y eficientes para la precipitación del monzón asiático con menos parámetros y mayor claridad física.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Este trabajo aborda el problema de identificación del mejor brazo en banditos lineales no estacionarios estableciendo un límite inferior dependiente del conjunto de brazos y proponiendo el algoritmo Adjacent-BAI\textsf{Adjacent-BAI}, que logra una probabilidad de error óptima al aprovechar la estructura geométrica del conjunto de brazos.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam Fazel2026-03-12📊 stat

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

El artículo presenta HEAL, un marco de aprendizaje sin refuerzo que supera las limitaciones del destilado tradicional mediante la integración de reparación asistida por entropía, estimación de incertidumbre y un currículo evolutivo progresivo para transferir eficazmente capacidades de razonamiento de modelos grandes a modelos más pequeños.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

El artículo propone los Grafos Conceptuales Causales (CCG), un marco que combina autoencoders dispersos y aprendizaje de estructura diferenciable para mapear dependencias causales entre conceptos en el espacio latente de modelos de lenguaje, logrando una fidelidad causal significativamente superior en tareas de razonamiento paso a paso en comparación con métodos existentes.

Md Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz2026-03-12🤖 cs.LG