Sparse Attention Post-Training for Mechanistic Interpretability
Cette étude présente une méthode de post-entraînement qui rend l'attention des transformeurs extrêmement clairsemée sans compromettre les performances, révélant ainsi des circuits de calcul plus simples et interprétables tout en démontrant que la majeure partie du calcul des modèles actuels est redondante.