Applied Explainability for Large Language Models: A Comparative Study
Este artigo apresenta um estudo comparativo aplicado de três técnicas de explicabilidade (Integrated Gradients, Attention Rollout e SHAP) em um modelo DistilBERT fine-tuned para classificação de sentimentos, destacando que os métodos baseados em gradientes oferecem explicações mais estáveis e intuitivas, enquanto os baseados em atenção são mais eficientes computacionalmente, mas menos alinhados com as características relevantes para a previsão.