Applied Explainability for Large Language Models: A Comparative Study
Questo studio applicato confronta tre tecniche di spiegabilità (Integrated Gradients, Attention Rollout e SHAP) su un modello DistilBERT per l'analisi del sentiment, evidenziando come i metodi basati su gradienti offrano spiegazioni più stabili e intuitive rispetto a quelli basati sull'attenzione o agnostici rispetto al modello, pur con diversi compromessi computazionali.