Scaling Laws For Diffusion Transformers
Questo studio conferma per la prima volta l'esistenza di leggi di scalabilità nei Diffusion Transformers (DiT), dimostrando che la perdita di pre-addestramento segue una relazione di potenza con il calcolo computazionale, permettendo così di prevedere con precisione le dimensioni ottimali del modello, i requisiti di dati e le prestazioni di generazione per budget computazionali anche molto elevati.