Latent Policy Steering through One-Step Flow Policies
Die Arbeit stellt Latent Policy Steering (LPS) vor, eine Methode für das Offline-Reinforcement-Learning, die durch die direkte Rückpropagation von Q-Gradienten aus dem Original-Aktionsraum über eine differenzierbare One-Step-MeanFlow-Politik eine robuste und hyperparameterunabhängige Verbesserung von Latent-Policies ermöglicht und dabei den Datensatz-Support strikt wahrt.