NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks
Le papier présente NerVE, un cadre unifié basé sur la dynamique du spectre propre qui permet de comprendre et d'optimiser le flux d'information dans les réseaux feed-forward des grands modèles de langage en reliant les signatures spectrales stables à la capacité de généralisation et aux choix architecturaux.