An Optimal Control Approach To Transformer Training
Diese Arbeit stellt einen optimalen Steuerungsansatz für das Transformer-Training vor, der die Architektur als gesteuertes Partikelsystem modelliert, um über einen gehobenen Markov-Entscheidungsprozess globale Optimalität und Robustheit ohne Gradientenabstieg zu gewährleisten.