Sparse Attention Post-Training for Mechanistic Interpretability
Questo articolo presenta un metodo di post-addestramento che rende l'attenzione dei transformer estremamente sparsa senza comprometterne le prestazioni, rivelando circuiti semplificati e migliorando l'interpretabilità meccanica dei modelli fino a 7 miliardi di parametri.