What do near-optimal learning rate schedules look like?
Dit onderzoek introduceert een zoekprocedure om bijna-optimale leerplansvormen te vinden en toont aan dat hoewel warmup en decay robuuste kenmerken zijn, veelgebruikte schema's niet optimaal zijn en dat gewichtsdecay een sterke invloed heeft op de ideale vorm.