Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression
Questo articolo dimostra che, nell'ambito della regressione ridge a caratteristiche casuali, un modello "forte" addestrato su etichette imperfette generate da un modello "debole" può superare significativamente le leggi di scala del proprio insegnante, raggiungendo persino il tasso ottimale minimax indipendentemente dalle prestazioni del teacher.