SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
Il paper presenta SALVE, un quadro unificato che combina autoencoder sparsi e mappatura di salienza per scoprire, validare e controllare meccanicisticamente il comportamento delle reti neurali attraverso interventi precisi nello spazio dei pesi, garantendo sistemi di AI più trasparenti e controllabili.