On the Geometric Structure of Layer Updates in Deep Language Models
Questo studio rivela che gli aggiornamenti strato per strato nei modelli linguistici profondi si decompongono in una componente dominante allineata ai token e un residuo geometricamente distinto che, sebbene piccolo, è cruciale per il calcolo funzionale e la stabilità dell'output.