POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
El artículo presenta POET-X, una variante eficiente en memoria y escalable del marco POET que permite el entrenamiento de modelos de lenguaje grandes de miles de millones de parámetros en una sola GPU Nvidia H100, superando las limitaciones de consumo de memoria y costo computacional de la implementación original y de optimizadores estándar como AdamW.