Each language version is independently generated for its own context, not a direct translation.

이 논문은 간단한 언어와 창의적인 비유를 사용하여 설명합니다.

핵심 아이디어: AI 속의 "숨겨진 스위치" 찾기

수학 더하기나 글쓰기 같은 작업을 수행하도록 학습된 거대하고 복잡한 기계 (예: 신경망) 가 있다고 상상해 보세요. 기계가 작동하는 모습은 볼 수 있지만, 어떻게 생각하는지는 볼 수 없습니다. 마치 블랙박스를 들여다보는 것과 같습니다. 숫자를 넣으면 다른 숫자가 나오지만, 내부의 기어들은 숨겨져 있습니다.

과학자들은 이 상자를 열어 기계가 "문법", "덧셈", "감정"과 같은 개념을 이해하는 데 사용하는 특정 "스위치"나 "다이얼"을 찾고자 합니다. 이를 **기계적 해석 가능성 (mechanistic interpretability)**이라고 합니다.

문제는 기계에는 수백만 개의 다이얼이 있고, 이 모든 것이 서로 얽혀 있다는 점입니다. 무작위로 하나를 고르는 것은 건초더미에서 특정 바늘을 찾아내는 것과 같습니다.

제니퍼 린 (Jennifer Lin) 의 논문은 이러한 바늘을 찾는 새로운 그리고 영리한 방법을 제안합니다. 저자는 추측 대신 **실증 신경 접선 커널 (Empirical Neural Tangent Kernel, eNTK)**이라는 수학적 도구를 사용합니다.

비유: "메아리 방" 테스트

신경망을 거대한 메아리 방으로 생각해 보세요. 특정 단어 (명사나 5 더하기와 같은 특징) 를 외치면 소리가 방 안을 돌아다니며 벽 (모델의 매개변수) 을 매우 특정한 패턴으로 때립니다.

eNTK는 당신이 외칠 때 방 전체가 어떻게 진동하는지 기록하는 초민감 마이크와 같습니다.

"명사"를 외치면 방은 특정한 리듬으로 진동합니다.
"동사"를 외치면 다른 리듬으로 진동합니다.

저자의 가설은 다음과 같습니다: 이 메아리 방에서 가장 강력한 진동 (최대 고유 방향, top eigendirections) 을 분석하면, 정확히 어떤 단어가 외쳐졌는지 알아낼 수 있습니다.

기술적인 용어로, 이 논문은 모델이 학습할 때 내부 기어들이 움직이는 "가장 강력한 패턴"을 살펴봄으로써, 모델이 특징을 감지하는 데 사용하는 정확한 방향을 식별할 수 있다고 주장합니다.

세 가지 실험: 간단한 수학에서 대형 언어 모델까지

저자는 이 "메아리 방" 아이디어를 점점 더 복잡해지는 세 가지 다른 유형의 기계에서 테스트했습니다.

1. 간단한 수학 기계 (MLP)

작업: 간단한 기계가 소수 (특정 유형의 수학 퍼즐) 로 나눈 나머지 연산을 학습했습니다.
진실 (Ground Truth): 우리는 이미 기계가 사용한 비밀 레시피를 알고 있었습니다: 기계는 숫자를 파동 (푸리에 특징) 으로 변환했습니다. 즉, 숫자를 사인파로 바꾼 것입니다.
결과: 저자는 eNTK 를 사용하여 기계의 소리를 들었습니다. eNTK 가 찾은 가장 강력한 진동은 "사인파" 레시피와 완벽하게 일치했습니다.
"그로킹 (Grokking)" 순간: "그로킹"이라는 현상이 있습니다. 이는 모델이 오랫동안 단순히 암기만 하다가 갑자기 시험에서 실패에서 만점을 받는 순간을 말합니다. 논문은 기계가 수학 문제를 "그로킹" (이해) 한 순간, eNTK 진동과 수학 특징 간의 정렬이 급격히 증가했음을 발견했습니다. 마치 기계가 마침내 "이해"한 순간, 메아리 방이 갑자기 올바른 노래를 부르기 시작한 것과 같습니다.

2. 조금 더 똑똑한 수학 기계 (Transformer)

작업: 조금 더 복잡한 기계 (Transformer) 가 같은 수학 퍼즐을 학습했습니다.
차이점: 이 기계는 가능한 모든 파동을 사용하지 않았습니다. 대신 문제를 해결하기 위해 몇 가지 무작위이고 특정 주파수를 선택했습니다.
결과: 기계가 무작위 주파수를 선택했음에도 불구하고, eNTK 는 여전히 그것들을 찾아냈습니다. 기계가 수학을 수행하는 데 사용한 특정 "음"을 성공적으로 식별했습니다.

3. 대형 언어 모델 (Gemma-3-270M)

작업: 이는 당신이 대화하는 AI 의 미니 버전과 같은 실제 사전 훈련된 언어 모델로, 이야기를 읽습니다.
도전 과제: 여기서는 "비밀 레시피"를 알 수 없습니다. 우리는 단지 기계가 문법 (명사, 동사, 과거형 등) 을 감지할 수 있는지 확인하고 싶을 뿐입니다.
테스트: 저자는 소량의 이야기 집합을 가지고 다음과 같이 질문했습니다: "eNTK 진동이 어떤 단어가 명사인지 알려줄 수 있을까요?"
비교: 그들은 eNTK 방법을 기계의 가장 활발한 부분만 보는 표준이면서 오래된 방법인 PCA와 비교했습니다.
결과: eNTK 방법이 더 좋았습니다. 표준 방법보다 "문법 스위치"를 더 정확하게 찾았습니다. 예를 들어, "동사"나 "과거형"을 찾는 데 기존 방법보다 더 뛰어났습니다.

주요 결론

이 논문은 모델의 학습 과정 (eNTK 를 통해) 의 "진동"을 분석하는 것이 강력한 새로운 손전등이라고 주장합니다.

우리가 답을 알고 있는 간단한 수학 모델에서 작동합니다.
우리가 답을 모르는 복잡한 언어 모델에서도 작동하며, 현재 표준 도구보다 문법 특징을 더 잘 찾습니다.
모델이 갑자기 개념을 이해하는 순간 ("그로킹" 순간) 에 정확히 빛을 비추는 것처럼 보입니다.

논문이 주장하지 않는 것

논문의 실제 내용을 충실히 따르는 것이 중요합니다:

만병통치약이 아님: 논문은 이러한 결과가 "상관관계"임을 인정합니다. eNTK 가 "문법"처럼 보이는 방향을 찾았다고 해서, 그 방향을 변경하면 모델이 수정된다는 것을 증명하는 것은 아닙니다. 이는 발견 도구일 뿐, 아직은 제어판이 아닙니다.
미래의 AI 안전에 관한 것이 아님: 논문은 이것이 미래에 안전에 유용할 수 있다고 언급하지만, 안전 응용이나 임상적 용도를 제시하지는 않습니다. 이는 현재 모델이 어떻게 작동하는지 이해하기 위한 순수한 방법론입니다.
완벽하지 않음: 언어 모델 실험은 상대적으로 작은 데이터 세트와 특정 모델을 사용했습니다. 저자는 확신을 갖기 위해 더 큰 모델과 데이터 세트에서 이를 테스트해야 한다고 제안합니다.

한 문장으로 요약

이 논문은 신경망이 학습하는 방식의 "메아리"를 듣는 것 (eNTK 라는 도구를 사용하여) 을 통해 모델이 수학과 문법을 이해하는 데 사용하는 숨겨진 "스위치"를 성공적으로 식별할 수 있으며, 종종 기존 방법보다 더 명확하게 찾아낼 수 있다고 제안합니다.

Each language version is independently generated for its own context, not a direct translation.

기술적 요약: 경험적 NTK 를 통한 특징 식별

문제 제기

기작 해석 가능성 (mechanistic interpretability) 은 신경망이 정보를 처리하는 방식을 역으로 분석하여, 특히 모델이 학습한 특징을 어떻게 표현하는지 식별하는 것을 목표로 합니다. 이전의 접근법들은 종종 개별 뉴런의 활성화 또는 그 희소 선형 결합이 해석 가능한 특징을 구성한다고 가정했으나, 최근 문헌들은 이러한 방법들이 불완전하거나 비정규적인 (non-canonical) 사전 (dictionary) 을 산출할 수 있음을 시사합니다. 따라서 이러한 특징들의 구체적인 성질에 대한 사전 가정 없이 학습된 모델에서 특징 방향을 식별하기 위해 근본적으로 다른 접근법이 필요합니다.

본 논문은 **경험적 신경 접선 커널 (Empirical Neural Tangent Kernel, eNTK)**의 상위 고유방향 (top eigendirections) 이 이러한 학습된 특징을 드러내는 메커니즘으로 기능할 수 있는지 조사합니다. eNTK 는 모델의 야코비안 (Jacobian) 두 사본을 매개변수 공간 방향을 따라 축약하여 형성된 커널로 정의됩니다:
$K_{ij}(x_1, x_2) = \sum_{\mu} \frac{df_i(x_1)}{dW_\mu} \frac{df_j(x_2)}{dW_\mu}$
여기서 $f$ 는 신경망, $W_\mu$ 는 가중치, $i, j$ 는 출력 클래스를 인덱싱합니다. 저자들은 이 커널의 상위 고유공간이 표준 NTK 이론이 적용되는 "게으른 (lazy)" 훈련 영역을 벗어난 모델에서도 데이터셋 위에서 평가될 때, 실제 (ground-truth) 또는 해석 가능한 특징 방향과 정렬될 것이라고 가설을 세웠습니다.

방법론

저자들은 1 층 MLP, 1 층 Transformer, 사전 훈련된 대규모 언어 모델 (Gemma-3-270M) 의 세 가지 서로 다른 설정에서 eNTK 의 상위 고유방향들을 계산하고 분석하는 알고리즘을 제안합니다.

1. 커널 구성 및 축소

크기 $N$ 의 데이터셋과 $C$ 개의 출력 클래스에 대해 평가된 eNTK 의 형태는 $(N, N, C, C)$ 입니다. 고유분해를 수행하기 위해 저자들은 두 가지 축소 전략을 사용합니다:

클래스별 eNTK: 특정 클래스에 대한 커널 $K_{cc}(x_1, x_2)$ 를 분석합니다.
평탄화된 eNTK: 클래스별 블록을 단일 $NC \times NC$ 행렬로 적층합니다.
레이어별 eNTK: 특정 레이어에 속하는 매개변수들에 대해서만 야코비안 곱을 합산하여 특징을 특정 네트워크 구성 요소에 귀속시킵니다.

2. 란초스 반복을 통한 확장성

언어 모델과 같이 큰 어휘 크기를 가진 모델과 같이 전체 야코비안이나 eNTK 를 구체화하는 것이 계산적으로 불가능한 대규모 모델의 경우, 저자들은 **란초스 반복 (Lanczos iteration)**을 활용합니다. 행렬 - 벡터 곱을 $2k$ 회 수행하여 상위 $k$ 개의 고유방향들을 근사합니다. 핵심적으로, 그들은 자동 미분을 통해 벡터 - 야코비안 및 야코비안 - 벡터 곱을 계산하여 $Kv = J(J^T v)$ 를 구함으로써 야코비안이나 eNTK 를 명시적으로 구성하지 않습니다.

3. 언어 모델을 위한 효율적 복원

Gemma-3-270M 실험에서, 어휘 크기 ( $d_{vocab}$ ) 로 인해 출력 레이어의 평탄화된 eNTK 는 계산적으로 불가능합니다. 저자들은 출력 레이어 야코비안과 최종 은닉 레이어 야코비안 사이의 선형 관계 (비어임베딩 행렬 $U$ 를 통해) 를 활용합니다. 그들은 전체 출력 eNTK 와 동일한 고유값을 가지지만 더 작은 $d_{model}$ 공간에서 작동하는 변환된 연산자 $\tilde{K} = S^{1/2} K_r S^{1/2}$ (여기서 $K_r$ 은 잔류 스트림의 eNTK) 를 유도합니다. 이를 통해 큰 어휘 크기의 객체를 구체화하지 않고도 상위 eNTK 고유방향들을 복원할 수 있습니다.

4. 평가 지표

가설을 검증하기 위해 저자들은 eNTK 고유공간과 독립적으로 지정된 "실제 (ground-truth)" 특징 벡터 간의 정렬 정도를 측정합니다.

정렬 점수: 상위 $k$ 개 eNTK 고유벡터가 span 하는 부분공간과 실제 특징들이 span 하는 부분공간 사이의 제곱 푸로베니우스 노름 (squared Frobenius norm) 으로 계산됩니다.
기준선 비교: 언어 모델 설정에서, eNTK 접근법은 동일한 계산 예산 (상위 25 개 방향) 을 사용하여 모델 활성화에 수행된 주성분 분석 (PCA) 기준선과 비교됩니다.

주요 결과

1. 모듈러 산술을 수행하는 MLP

"그로킹 (grokking, 기억에서 일반화로의 위상 전이)"을 보이는 모듈러 덧셈 ( $mod\ p$ ) 으로 훈련된 1 층 MLP 에서:

스펙트럼 구조: eNTK 스펙트럼은 두 개의 뚜렷한 "절벽 (cliffs, 높은 고유값의 연속 블록)"을 보입니다.
특징 정렬: 첫 번째 절벽 (크기 $4\lfloor p/2 \rfloor$ ) 은 입력 변수 ( $a$ 와 $b$ ) 의 푸리에 특징과 완벽하게 정렬됩니다. 두 번째 절벽은 모델의 두 번째 레이어가 실제 알고리즘을 구현하는 데 사용하는 "합" 및 "차" 푸리에 특징 ( $a+b$ 및 $a-b$ ) 과 정렬됩니다.
훈련 역학: 합/차 모드에 대한 두 번째 절벽의 정렬은 초기화 시에는 낮지만 부드럽게 상승하며, 겹침의 1 차 도함수는 그로킹 위상 전이 시작 부근에서 정점을 찍습니다.

2. 모듈러 산술을 수행하는 Transformer

동일한 작업으로 훈련된 1 층 Transformer 에서:

희소 주파수: MLP 와 달리, Transformer 는 랜덤하고 시드에 의존하는 주파수의 희소 집합에서 푸리에 모드를 학습합니다.
레이어별 정렬: 상위 레이어별 eNTK 고유공간은 이러한 특정 키 주파수에서의 푸리에 특징과 정렬됩니다.
- 어텐션 블록과 MLP 입력 가중치는 입력 푸리에 특징의 합 ( $\cos(\omega_k a) + \cos(\omega_k b)$ ) 과 정렬됩니다.
- MLP 출력 및 비어임베딩 가중치는 "합" 푸리에 특징 ( $\cos(\omega_k(a+b))$ ) 과 정렬됩니다.
역학: MLP 와 유사하게, 합 모드에 대한 정렬은 훈련 중에 상승하며, 그로킹 전이 부근의 도함수에서 정점을 찍습니다.

3. 자연어를 다루는 Gemma-3-270M

TinyStories 컨텍스트 윈도우 데이터셋에서 평가된 사전 훈련된 Gemma-3-270M 모델에서:

문법 복원: 상위 eNTK 고유방향들은 자동으로 생성된 문법적 특징 (품사와 시제 및 수와 같은 형태론적 태그) 에 대해 테스트되었습니다.
성능: AUROC 로 측정했을 때, eNTK 고유방향은 모든 품사 특징과 하나의 형태론적 특징을 제외한 모든 특징에 대해 모델 활성화에 대한 PCA 기준선보다 우수한 성능을 보였습니다.
해석 가능성: 특정 고유방향 (예: "동사 원형" 또는 "과거형 동사") 에 대해 가장 높은 활성을 보이는 예들에 대한 정성적 분석은 목표 문법적 특징과 일관된 일관된 의미론적 해석을 드러냈습니다.

중요성과 주장

본 논문은 eNTK 고유분석이 학습된 모델에서 특징을 식별하기 위한 새로운, 이론적으로 동기 부여된, 그리고 경험적으로 검증된 수단을 제공한다고 주장합니다.

게으른 영역을 넘어: 이 연구는 매개변수 변화가 무시할 수 있는 "게으른" 훈련 영역 (여기서 표준 NTK 이론이 엄격하게 적용되지 않음) 에 있지 않은 모델에서도 eNTK 스펙트럼 구조가 유익하며 실제 메커니즘과 정렬됨을 보여줍니다.
활성화 PCA 보다 우월함: 언어 모델의 맥락에서, eNTK 접근법은 활성화에 대한 PCA 보다 문법적 특징을 더 성공적으로 복원하여, 커널의 구조가 원시 활성화 (PCA 를 통해 축소된 경우조차) 가 가릴 수 있는 특징 정보를 포착함을 시사합니다.
동적 모니터링: eNTK 부분공간과 특징 간의 정렬이 훈련 중에 진화하며, 특히 그로킹 부근에서 변화율이 정점을 찍는다는 관찰은, eNTK 고유분석이 훈련 중 특정 특징이 언제 획득되는지 모니터링하는 진단 도구로 사용될 수 있음을 시사합니다.

저자들은 현재 결과가 상관관계에 기반한 것임을 지적하며 겸손한 입장을 유지합니다. 그들은 아직 eNTK 에서 영감을 받은 개입이 모델 행동을 인과적으로 변화시킨다는 것을 증명하지 못했으며, 언어 모델 실험의 규모 (Gemma-3-270M 은 최첨단 모델보다 작음) 와 데이터셋의 단순성 (TinyStories) 에 관한 한계를 인정합니다. 그러나, 합성 알고리즘 작업과 자연어에 걸친 결과의 일관성은 eNTK 기반 기작 해석 가능성에 대한 강력한 잠재력을 시사합니다.

Feature Identification via the Empirical NTK