On the Geometric Structure of Layer Updates in Deep Language Models
Dit paper toont aan dat laagupdates in diepe taalmodellen geometrisch kunnen worden opgesplitst in een dominante token-gerichte component en een functioneel significante residu-component, waarbij de afwijking van de token-gerichte benadering sterk correleert met outputverstoringen.