POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
O POET-X é uma variante escalável e eficiente em termos de memória do framework POET que, ao otimizar transformações de equivalência ortogonal com custo computacional reduzido, permite o pré-treinamento de modelos de linguagem de bilhões de parâmetros em uma única GPU, superando as limitações de memória de otimizadores padrão como o AdamW.