Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression
이 논문은 약한 교사 모델의 불완전한 레이블로 훈련된 강한 학생 모델이 무작위 특징 리지 회귀 (RFRR) 를 통해 교사 모델의 스케일링 법칙을 능가하고, 심지어 교사 모델의 오차가 감소하지 않더라도 최소최대 최적 수렴 속도를 달성할 수 있음을 보임으로써 약한-to-강한 일반화의 잠재력을 규명합니다.