Structural Inference: Interpreting Small Language Models with Susceptibilities
이 논문은 신경망을 베이지안 통계역학 시스템으로 간주하여 데이터 분포의 미세한 변화가 네트워크 구성 요소의 사후 기대값에 미치는 영향을 분석하는 선형 응답 프레임워크를 개발함으로써, 3M 파라미터 트랜스포머 모델에서 다중그램 및 유도 헤드와 같은 기능적 모듈을 분리할 수 있는 저차원 구조를 가진 반응 행렬을 제시합니다.