Structural Inference: Interpreting Small Language Models with Susceptibilities
Este artículo presenta un marco de respuesta lineal para la interpretabilidad que trata las redes neuronales como sistemas bayesianos de mecánica estadística, permitiendo identificar módulos funcionales en transformadores pequeños mediante el análisis de susceptibilidades derivadas de perturbaciones en la distribución de datos.