SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
Ce papier présente SALVE, un cadre unifié qui combine l'interprétabilité mécaniste et l'édition de modèles pour découvrir, valider et contrôler de manière précise et permanente le comportement des réseaux de neurones via l'édition de vecteurs latents dans un espace de caractéristiques parcimonieuses.