RewardUQ: A Unified Framework for Uncertainty-Aware Reward Models

Il paper introduce RewardUQ, un framework unificato che valuta sistematicamente le tecniche di quantificazione dell'incertezza per i modelli di reward, dimostrando come dimensioni e inizializzazione del modello influenzino le prestazioni e fornendo un pacchetto open-source per migliorare l'efficienza e l'affidabilità nell'allineamento dei grandi modelli linguistici.

Daniel Yang, Samuel Stante, Florian Redhardt + 5 more2026-03-02💬 cs.CL

Sandwiching Polynomials for Geometric Concepts with Low Intrinsic Dimension

Questo lavoro presenta un nuovo metodo semplice per costruire polinomi approssimanti a sandwich con gradi notevolmente ridotti per funzioni a bassa dimensione intrinseca, ottenendo miglioramenti esponenziali rispetto agli stati dell'arte precedenti per classi come le funzioni di kk semispazi e le funzioni soglia polinomiali sotto distribuzioni gaussiane.

Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan2026-03-02🤖 cs.LG

Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

Questo articolo presenta un approccio di Apprendimento per Rinforzo Multi-Obiettivo basato su dinamiche minimax e giochi a somma zero per ottimizzare l'allocazione dei contenitori nei centri di smistamento collaborativi uomo-robot, dimostrando la capacità di bilanciare obiettivi conflittuali e rispettare vincoli operativi complessi in ambienti su larga scala.

Sikata Sengupta, Guangyi Liu, Omer Gottesman + 4 more2026-03-02🤖 cs.LG