SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
El artículo presenta SALVE, un marco unificado que combina autoencoders dispersos y mapeo de saliencia para descubrir, validar y controlar de manera interpretable y permanente el comportamiento de redes neuronales mediante la edición de vectores latentes.