POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
Der Artikel stellt POET-X vor, eine speichereffiziente und skalierbare Variante des POET-Frameworks, die durch optimierte orthogonale Transformationen die Stabilität beim Training großer Sprachmodelle beibehält und deren Vorverarbeitung auf einer einzigen GPU ermöglicht, wo herkömmliche Optimierer wie AdamW an Speicherproblemen scheitern.