SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
Dit artikel introduceert SALVE, een unificerend raamwerk dat mechanische interpreteerbaarheid en modelbewerking combineert door middel van een sparse autoencoder en Grad-FAM om neurale netwerken te ontdekken, valideren en permanent te controleren via precisie-ingrepen in de gewichtenruimte.