Applied Explainability for Large Language Models: A Comparative Study
Este estudio comparativo aplicado evalúa las técnicas de explicabilidad Integrated Gradients, Attention Rollout y SHAP en un modelo DistilBERT fine-tuned para clasificación de sentimientos, concluyendo que los métodos basados en gradientes ofrecen explicaciones más estables e intuitivas, mientras que los basados en atención son más eficientes pero menos precisos, y los agnósticos al modelo son flexibles pero costosos.