Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

Il paper dimostra che l'addestramento supervisionato con pesi esponenziali basati sulla ricompensa (exponential reward-weighted SFT) supera i metodi RLHF nei sistemi di raccomandazione generativi offrendo una soluzione robusta, scalabile e priva di hacking delle ricompense, con garanzie teoriche e un parametro di temperatura interpretabile per bilanciare miglioramento e robustezza.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Questo articolo propone l'utilizzo della decomposizione ai valori singolari generalizzata (GSVD) per definire un punteggio angolare interpretabile che diagnostica, su base campionale, se un'osservazione è meglio spiegata da uno dei due dataset confrontati o da entrambi, valorizzando così l'apprendimento basato sulla geometria.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

Il paper propone MultiwayPAM, un nuovo metodo di clustering tensoriale che analizza i punteggi ottenuti tramite LLM-as-a-Judge per ridurre i costi computazionali e identificare i bias intrinseci degli evaluator, permettendo di scoprire la struttura di appartenenza di domande, rispondenti e valutatori attraverso l'individuazione simultanea dei membri e dei medoidi di ciascun cluster.

Chihiro Watanabe, Jingyu Sun2026-03-12📊 stat

How to make the most of your masked language model for protein engineering

Questo articolo propone un metodo di campionamento flessibile ed efficace basato sulla ricerca a fascio stocastica per ottimizzare le proprietà biologiche dei modelli linguistici mascherati, dimostrando attraverso valutazioni *in silico* e *in vitro* su anticorpi terapeutici che la scelta del metodo di campionamento è almeno tanto cruciale quanto quella del modello stesso.

Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott2026-03-12🧬 q-bio

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Il paper presenta un framework di apprendimento di operatori non locali basato su kernel di integrazione guidati dai dati che, separando l'aggregazione delle informazioni non locali dalle previsioni non lineari locali, garantisce modelli interpretabili ed efficienti per la previsione delle precipitazioni del monsone sud-asiatico.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Questo lavoro risolve il problema di identificazione del braccio migliore in banditi lineari non stazionari stabilendo un limite inferiore dipendente dall'insieme dei bracci e proponendo l'algoritmo Adjacent-BAI\textsf{Adjacent-BAI} basato sul design ottimale adiacente, che raggiunge tale limite e supera le stime pessimistiche basate sul design G-ottimale.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam Fazel2026-03-12📊 stat

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

Il paper presenta HEAL, un framework privo di RL che supera i limiti del "soffitto dell'insegnante" nella distillazione dei modelli di ragionamento integrando concetti pedagogici come la Zona di Sviluppo Prossimale con tre moduli chiave (GEAR, PURE e PACE) per riparare attivamente le traiettorie di ragionamento e guidare l'apprendimento progressivo dei modelli più piccoli.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI