Structural Inference: Interpreting Small Language Models with Susceptibilities
Die Autoren entwickeln ein lineares Antwortframework, das neuronale Netze als bayessche statistisch-mechanische Systeme behandelt, um durch lokale Störungen der Datenverteilung effizient berechenbare Suszeptibilitäten zu ermitteln, die als Attributionswerte dienen und funktionale Module in kleinen Transformern aufdecken.