Applied Explainability for Large Language Models: A Comparative Study
本論文は、SST-2 感情分類タスクにおける DistilBERT モデルを用いて Integrated Gradients、Attention Rollout、SHAP の 3 つの説明手法を比較評価し、勾配ベースの手法が安定性と直観性に優れる一方、アテンション手法は計算効率が良くモデル非依存手法は柔軟性が高いが計算コストと変動が大きいという実用的なトレードオフを明らかにしたものです。