Align and Filter: Improving Performance in Asynchronous On-Policy RL
Il paper propone il metodo TACPO, basato su vincoli di ottimizzazione della politica allineati al vantaggio tramite variazione totale, per mitigare il ritardo della politica (policy lag) nei sistemi di apprendimento per rinforzo on-policy distribuiti e ad alta frequenza di aggiornamento, migliorando così le prestazioni sia in compiti classici che nel ragionamento matematico con LLM.