Stabilizing Policy Optimization via Logits Convexity
Questo lavoro introduce il framework Logits Convex Optimization (LCO), che colma il divario di stabilità tra l'addestramento supervisionato e il reinforcement learning nei grandi modelli linguistici sfruttando la convessità dei logit per garantire un'ottimizzazione più stabile ed efficace rispetto ai metodi tradizionali come PPO.