Structural Inference: Interpreting Small Language Models with Susceptibilities

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 아이디어: AI 를 '자석'처럼 생각하세요

이 연구의 저자들은 AI(특히 언어 모델) 를 자석이나 고체 물질과 비슷하다고 봅니다.

일반적인 생각: AI 는 입력을 받아서 출력을 내는 검은 상자입니다. 우리는 그 안에서 무슨 일이 일어나는지 잘 모릅니다.
이 논문의 생각: AI 는 자석과 같습니다. 자석에 외부에서 자기장 (자석의 힘) 을 가하면 자석 내부의 작은 자석들 (스핀) 이 어떻게 반응하는지 볼 수 있죠.
- 여기서 '자기장'은 무엇일까요? 바로 데이터의 변화입니다. 예를 들어, AI 가 주로 영어 소설을 읽다가 갑자기 법률 문서나 파이썬 코드만 읽게 만든 상황을 상상해 보세요. 이것이 AI 에게 가해지는 '약간의 자극'입니다.
- AI 의 반응은 무엇일까요? AI 의 내부 부품 (주의를 기울이는 부분, 즉 'Attention Head') 들이 이 데이터 변화에 어떻게 반응하는지 측정합니다. 이를 물리학 용어로 **'감수성 (Susceptibility)'**이라고 부릅니다.

2. 감수성 (Susceptibility) 이란 무엇인가요?

감수성은 **"어떤 자극에 대해 얼마나 민감하게 반응하는가?"**를 나타내는 숫자입니다.

비유: 친구 A 와 B 가 있습니다.
- 친구 A 는 '맛있는 음식' 이야기를 하면 눈이 반짝이고 기분이 좋아집니다 (강한 긍정 반응).
- 친구 B 는 '맛있는 음식' 이야기를 하면 오히려 식욕이 떨어지거나 싫어하는 표정을 짓습니다 (강한 부정 반응).
- 이 논문의 방법론은 AI 의 각 부품 (Attention Head) 에 대해 "이 부품은 '코드'라는 자극에 얼마나 민감하게 반응하는가?"를 측정하는 것입니다.

3. '표현 (Expression)'과 '억제 (Suppression)'의 춤

이 논문에서 가장 흥미로운 발견은 AI 내부 부품들이 서로 다른 역할을 한다는 것입니다.

표현 (Expression, 마이너스 감수성): 어떤 부품은 특정 패턴 (예: "A 가 나오면 B 가 따라오는 것") 을 강조합니다. 마치 "이건 중요해! 이렇게 이어져!"라고 외치는 것과 같습니다.
억제 (Suppression, 플러스 감수성): 다른 부품은 같은 패턴을 막아냅니다. "아니, 그건 아니야! 다른 방향으로 가자"라고 말하며 반대 방향으로 힘을 줍니다.

창의적인 비유:
AI 는 하나의 거대한 합창단입니다.

어떤 성악가 (부품) 는 특정 노래 (데이터 패턴) 를 부르며 분위기를 고조시킵니다 (표현).
또 다른 성악가는 그 노래를 부르지 않고, 오히려 다른 가사를 불러서 그 분위기를 누릅니다 (억제).
이 논문의 방법은 이 합창단 안에서 누가 어떤 노래를 부르고, 누가 누구를 막고 있는지 **소리의 크기 (감수성)**를 측정해서 찾아내는 것입니다.

4. 실제 실험 결과: AI 가 무엇을 배웠을까?

저자들은 아주 작은 AI 모델 (300 만 개의 파라미터) 을 실험했습니다. 그리고 데이터의 종류를 바꿔가며 (예: 위키피디아, 법률 문서, GitHub 코드 등) AI 내부 부품들의 반응을 측정했습니다.

그 결과, 놀라운 패턴이 발견되었습니다:

단어 나누기 (Word Segmentation): AI 의 일부 부품은 문장이 어디서 끊어지는지 (공백, 마침표 등) 를 매우 잘 감지했습니다. 마치 아기 언어 학습기가 단어의 경계를 배우는 과정과 비슷했습니다.
유도 회로 (Induction Circuit): AI 는 "A 가 B 를 따라오는 패턴"을 기억하고 예측하는 특별한 부품들을 가지고 있었습니다. 예를 들어, "Apple 이라는 회사가... Apple 이라는 과일..."처럼 문맥을 기억하는 능력입니다.
- 이 논문의 방법으로 이 '기억하는 부품들'을 정확히 찾아냈습니다.
- 더 놀라운 점은, 이 부품들 중 일부는 패턴을 강조하고, 다른 부품들은 이를 억제한다는 것을 발견했다는 것입니다. 마치 AI 내부에서 "기억하자!"와 "잊어버려!"가 서로 싸우는 듯한 모습입니다.

5. 왜 이 연구가 중요할까요?

기존의 AI 해석 방법들은 주로 "이 부품을 없애면 AI 가 망가져요"라고 확인하는 방식 (Ablation) 이었습니다. 하지만 이 방법은 AI 가 스스로 오류를 수정하거나 (Self-repair), 다른 부품이 그 역할을 대신하는 경우를 놓치기 쉽습니다.

이 논문의 '감수성' 방법은 다음과 같은 장점이 있습니다:

직관적: AI 가 데이터의 어떤 변화에 민감한지, 어떤 변화를 싫어하는지 숫자로 바로 보여줍니다.
구조 발견: AI 내부에 어떤 기능적 모듈 (예: 문법 분석기, 기억 장치, 억제 장치) 이 있는지 자동으로 찾아냅니다.
확장성: 이 방법은 큰 AI 모델에도 적용할 수 있어, 거대 언어 모델이 어떻게 작동하는지 이해하는 데 중요한 열쇠가 될 수 있습니다.

요약

이 논문은 AI 를 자석처럼 보고, 데이터라는 '자기장'을 살짝 흔들어서 AI 내부 부품들이 어떻게 반응하는지 측정했습니다. 그 결과, AI 내부에는 서로 다른 역할을 하는 부품들이 있고, 어떤 부품은 특정 패턴을 부추기고, 어떤 부품은 막는 복잡한 상호작용을 하고 있다는 것을 발견했습니다. 이는 AI 가 단순히 단어를 예측하는 것을 넘어, 데이터의 구조를 어떻게 이해하고 처리하는지에 대한 새로운 통찰을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

신경망, 특히 트랜스포머 (Transformer) 모델의 복잡한 거동을 가능하게 하는 미시적 조직 (internal structure) 은 여전히 잘 이해되지 않고 있습니다. 기존의 기계적 해석 (Mechanistic Interpretability) 방법론인 **Ablation(제거 실험)**이나 Influence Functions는 모델의 특정 부분을 조작하거나 데이터 가중치를 변경하여 효과를 관찰하는 방식인데, 이는 종종 모델이 오작동 (off-distribution) 상태가 되거나, '자기 수복 (self-repair)' 현상으로 인해 인과 관계를 명확히 규명하기 어렵다는 한계가 있습니다. 또한, 데이터 분포의 미세한 변화가 모델 내부의 특정 구성 요소 (예: 어텐션 헤드) 에 어떻게 선형적으로 반응하는지를 체계적으로 정량화하는 이론적 프레임워크가 부족했습니다.

2. 방법론 (Methodology)

이 논문은 신경망을 **베이지안 통계 역학 시스템 (Bayesian Statistical Mechanical System)**으로 간주하고, 물리학의 **선형 응답 이론 (Linear Response Theory)**과 감수성 (Susceptibility) 개념을 차용한 새로운 해석 프레임워크를 제안합니다.

감수성 (Susceptibility) 의 정의:
- 데이터 분포 ( $q$ ) 에 미세한 교란 (perturbation, 예: 특정 도메인 텍스트의 비율을 높임) 을 가했을 때, 모델의 특정 구성 요소 (관측 가능량 $\phi$ ) 의 기대값이 어떻게 변화하는지를 1 차 선형 응답으로 정의합니다.
- 수식적으로 감수성 $\chi$ 는 교란 파라미터 $h$ 에 대한 기대값의 미분으로 정의되며, 이는 **공분산 (Covariance)**으로 계산됩니다:
  $\chi = -\text{Cov}_\beta [\phi, \Delta L]$
  여기서 $\Delta L$ 은 데이터 분포 변화에 따른 손실 함수의 변화량입니다.
국소 감수성 (Local Susceptibility) 추정:
- 전역 베이지안 후면 (Posterior) 에서 샘플링하는 것은 계산적으로 불가능하므로, **SGLD (Stochastic Gradient Langevin Dynamics)**를 사용하여 모델 가중치 $w^*$ 주변의 국소 후면 (Local Posterior) 에서 샘플을 생성합니다.
- 이를 통해 개별 체크포인트와 특정 어텐션 헤드에 대한 감수성을 효율적으로 추정합니다.
표현 (Expression) 과 억제 (Suppression) 의 해석:
- 음의 감수성 (Negative Susceptibility): 해당 구성 요소가 특정 데이터 패턴을 '예측'하거나 '표현' (Expression) 함을 의미합니다. (손실을 줄이는 방향으로 가중치가 변할 때 해당 토큰의 확률이 증가함)
- 양의 감수성 (Positive Susceptibility): 해당 구성 요소가 특정 패턴을 '억제' (Suppression) 함을 의미합니다. (손실을 줄이는 방향으로 가중치가 변할 때 오히려 해당 토큰의 확률이 감소하거나, 대안적인 완료를 예측함)
구조적 추론 (Structural Inference):
- 다양한 데이터 분포 (Probe Distributions) 에 대한 감수성 값을 행렬 ( $X$ ) 로 구성합니다.
- 이 행렬에 **PCA(주성분 분석)**를 적용하여 저차원 구조를 추출합니다.
  - 주성분 (PC): 데이터의 패턴 (Modes) 을 나타냄.
  - 로딩 (Loadings): 모델의 구성 요소 (어텐션 헤드) 가 해당 패턴에 어떻게 반응하는지 나타냄.

3. 주요 기여 (Key Contributions)

이론적 프레임워크 개발: 베이지안 학습 이론과 통계 역학을 기반으로 모델 구성 요소가 데이터 분포 변화에 어떻게 반응하는지를 정량화하는 '감수성' 이론을 정립했습니다. 이는 데이터 구조와 모델 내부 구조 간의 원칙적인 연결고리를 제공합니다.
구조적 추론 방법론 제안: 감수성 행렬의 선형 대수적 구조를 분석하여 모델 내부의 기능적 모듈 (Functional Modules) 을 발견하고, 이를 데이터 패턴과 매핑하는 새로운 방법론을 제시했습니다.
실증적 검증: 3M 파라미터 규모의 작은 트랜스포머 모델 (Pile 데이터셋 학습) 에 적용하여, 기존 연구 (Wang et al., 2024; Hoogland et al., 2025) 에서 발견된 **Induction Circuit(유도 회로)**와 Multigram Heads를 성공적으로 분리하고 식별했습니다.

4. 실험 결과 (Results)

데이터 패턴 분리: 감수성 행렬에 PCA 를 적용한 결과, 데이터의 주요 패턴 (단어 시작/끝, 유도 패턴, 괄호 매칭 등) 이 명확하게 분리되었습니다.
- PC1 (단어 분할): 모든 헤드가 단어 끝 (Word End) 과 유도 패턴에는 긍정적으로, 단어 시작과 공백에는 부정적으로 반응하는 보편적인 패턴을 보였습니다.
- PC2 (Induction Circuit): 1 층의 유도 헤드 (1:6, 1:7) 와 이전/현재 토큰 헤드 (0:1, 0:4, 0:5) 가 유도 패턴 (Induction Pattern) 을 '표현' (음의 감수성) 하고, 나머지 헤드 (Layer 1 Multigram Heads) 가 이를 '억제' (양의 감수성) 하는 명확한 대립 구조를 발견했습니다. 이는 기존 Ablation 연구 결과와 일치하며, 구조적 추론이 이를 데이터 분석만으로 재발견했음을 의미합니다.
- PC3 (괄호 매칭): Dyck Heads(괄호 짝 맞추기) 로 알려진 헤드들이 오른쪽 구분자 (Right Delimiter) 패턴에 대해 특이한 반응을 보였습니다.
표현과 억제의 시각화: 특정 토큰 (예: to, /) 에 대해 문맥에 따라 감수성이 양수/음수 쌍극자 (Bimodal) 분포를 보이는 것을 발견했습니다. 이는 같은 토큰이라도 문맥 (예: 일반적인 단어 vs LaTeX 명령어) 에 따라 모델이 이를 '표현'하거나 '억제'하는 헤드가 다르다는 것을 보여줍니다.
Ablation 과의 비교: 감수성과 제로 Ablation (Zero Ablation) 손실 변화 사이의 상관관계는 매우 낮았습니다. 이는 감수성이 모델의 선형 응답 특성을 포착하는 반면, Ablation 은 비선형적이거나 자기 수복 현상으로 인해 다른 정보를 제공함을 시사합니다.

5. 의의 및 결론 (Significance)

새로운 해석 패러다임: 기존의 '조작 (Ablation)' 기반 접근법에서 벗어나, 데이터 분포의 미세한 변화에 대한 모델의 '선형 응답'을 분석하는 새로운 해석적 관점을 제시했습니다.
이론적 근거 강화: Singular Learning Theory (SLT) 와 Local Learning Coefficient 와의 연결을 통해, 모델의 일반화 오차와 손실 지형 (Loss Landscape) 의 기하학적 구조를 데이터 변화와 연관 지어 설명할 수 있는 이론적 토대를 마련했습니다.
확장성: 현재는 작은 모델 (3M 파라미터) 에서 검증되었으나, SGLD 는 확장 가능하므로 더 큰 모델에서도 적용 가능하며, 기존 기계적 해석 방법론 (Ablation, Sparse Autoencoders) 을 보완할 수 있는 이론적으로 엄밀한 도구로 기대됩니다.

이 연구는 신경망이 복잡한 데이터 패턴을 어떻게 구조화하여 처리하는지에 대한 통찰을 제공하며, 특히 모델이 어떤 패턴을 '학습'하고 (표현), 어떤 패턴을 '무시'하거나 '상쇄'하는지 (억제) 를 체계적으로 분석할 수 있는 강력한 도구를 제시했습니다.

Structural Inference: Interpreting Small Language Models with Susceptibilities

1. 핵심 아이디어: AI 를 '자석'처럼 생각하세요

2. 감수성 (Susceptibility) 이란 무엇인가요?

3. '표현 (Expression)'과 '억제 (Suppression)'의 춤

4. 실제 실험 결과: AI 가 무엇을 배웠을까?

5. 왜 이 연구가 중요할까요?

요약

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers