On the Geometric Structure of Layer Updates in Deep Language Models
El artículo demuestra que las actualizaciones de capa en los modelos de lenguaje profundos se pueden descomponer geométricamente en un componente tokenwise dominante y un residuo estructuralmente distinto donde se concentra la computación funcionalmente significativa, lo que implica que los errores de aproximación en este residuo están fuertemente correlacionados con perturbaciones en la salida.