Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
Deze studie analyseert 92 open-source taalmodellen en toont aan dat het meenemen van ontwerpfactoren zoals data-samenstelling en architecturale keuzes, naast modelgrootte, de voorspelling van downstream-prestaties aanzienlijk verbetert en inzicht biedt in hoe specifieke ontwerpbeslissingen de eindcapaciteiten vormen.