A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation
Ce papier présente A-3PO, une méthode qui accélère l'entraînement asynchrone des grands modèles de langage en approximant la politique proximale par interpolation simple pour éliminer le surcoût computationnel des passes avant supplémentaires, tout en maintenant des performances comparables.