On the Geometric Structure of Layer Updates in Deep Language Models
Cette étude révèle que les mises à jour des couches dans les modèles de langage profonds se décomposent géométriquement en un composant dominant par token et un résidu distinct, ce dernier étant crucial pour la fonctionnalité du modèle car son approximation entraîne des perturbations significatives des sorties.