On the Geometric Structure of Layer Updates in Deep Language Models
Este artigo demonstra que as atualizações de camadas em modelos de linguagem profundos podem ser decompostas em um componente tokenizado dominante e um resíduo geometricamente distinto, onde este último, embora menor em magnitude, concentra a computação funcionalmente significativa e sua aproximação incorreta está fortemente associada a perturbações na saída do modelo.