On the Geometric Structure of Layer Updates in Deep Language Models
Die Studie zeigt, dass Layer-Updates in tiefen Sprachmodellen geometrisch in eine dominante tokenweise Komponente und einen funktional signifikanten, geometrisch distincten Residualanteil zerlegt werden können, wobei der Approximationsfehler des Residuals stark mit Output-Perturbationen korreliert.