POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
Il paper introduce POET-X, una variante scalabile ed efficiente dal punto di vista della memoria del framework POET che, riducendo i costi computazionali delle trasformazioni ortogonali, permette l'addestramento di modelli linguistici su larga scala su una singola GPU H100 dove i metodi standard fallirebbero.