Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Lo studio valuta diverse tecniche di apprendimento per rinforzo offline in un ambiente telecomunicazioni stocastico, dimostrando che il Conservative Q-Learning offre la maggiore robustezza e rappresenta la scelta predefinita più affidabile per la gestione dei reti future, sebbene i metodi basati su sequenze possano risultare competitivi in presenza di dati ad alto rendimento.

Nicolas Helson, Pegah Alizadeh, Anastasios Giovanidis2026-03-05🤖 cs.AI