Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures
Dit paper introduceert een theoretisch kader dat de 'simplicity bias' in diverse neurale netwerken verklaart door middel van saddle-to-saddle dynamiek, waarbij het aantoont dat gradient descent oplossingen met toenemende complexiteit (zoals hogere rang, meer knikken of meer attention heads) geleidelijk leert via een iteratief proces dat nabij invariante manieren en zadelpunten verloopt.