Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards
Il paper introduce PSN-RLVR, un metodo che supera i limiti esplorativi del Reinforcement Learning con Ricompense Verificabili (RLVR) applicando rumore nello spazio dei parametri dei modelli LLM, integrato con campionamento per importanza tronco e un adattatore di rumore in tempo reale, per migliorare significativamente le prestazioni di ragionamento matematico su larga scala.