I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 왜 인간의 생각을 이해할 수 있는 것처럼 작동하는가?"**라는 질문에 대한 새로운 답을 제시합니다.

간단히 말해, **"LLM 은 단순히 다음 단어를 예측하는 게임만 하고 있을 뿐인데, 어떻게 인간의 복잡한 개념 (감정, 성별, 문체 등) 을 마치 인간처럼 이해하고 표현할 수 있게 된 걸까?"**라는 의문에서 시작합니다.

이 복잡한 내용을 일상적인 비유로 풀어서 설명해 드리겠습니다.

1. 핵심 비유: "요리사와 레시피" vs "요리 결과물"

전통적인 AI 연구자들은 LLM 이 방대한 양의 텍스트 (인터넷 데이터) 를 읽으며 다음에 올 단어를 맞추는 훈련을 한다고 보았습니다. 마치 요리사가 레시피를 외워서 요리를 만드는 것처럼요.

하지만 이 논문은 **"아니, 그건 표면적인 현상일 뿐이야. 실제로는 더 깊은 원리가 작동하고 있어"**라고 말합니다.

비유: LLM 이 텍스트를 생성할 때, 단순히 단어를 나열하는 게 아니라, 그 뒤에 숨겨진 **'의도'나 '개념 (Concept)'**이라는 보이지 않는 레시피를 먼저 떠올린 뒤, 그 레시피에 따라 단어를 고른다는 것입니다.
- 예: "사랑"이라는 개념 (잠재 변수) 이 있을 때, 그 개념을 표현하기 위해 "달콤한", "뜨거운", "아픈" 같은 단어들을 선택하는 식입니다.

2. 주요 발견: "마법의 선형 변환 (Linear Transformation)"

이 논문은 수학적으로 증명했습니다. LLM 이 학습한 내부 표현 (뇌 속의 활동) 은 숨겨진 개념들의 확률을 아주 단순한 방식으로 표현하고 있다는 것입니다.

비유: LLM 의 뇌속을 들여다보면, 복잡한 수학적 계산이 아니라 **"개념 A 가 80% 확률로 존재하고, 개념 B 가 20% 확률로 존재한다"**는 정보를 **직선 (선형)**으로 그려진 지도 위에 펼쳐놓고 있는 것과 같습니다.
왜 중요할까요?
- 이전에는 LLM 의 내부가 '블랙박스'처럼 복잡하고 해독 불가능하다고 생각했습니다.
- 하지만 이 논문은 **"아니, 그건 그냥 개념들의 확률 값을 선으로 연결한 것뿐이야"**라고 밝혀냈습니다.
- 마치 복잡한 악기를 해체해보니, 내부에는 단순한 나사 (개념) 와 스프링 (선형 관계) 만으로 구성되어 있는 것과 같습니다.

3. "예측만 했는데 어떻게?" (Identifiability)

가장 놀라운 점은, LLM 이 단순히 '다음 단어 예측'만 하도록 훈련받았음에도 불구하고 이 복잡한 개념 구조를 스스로 찾아냈다는 것입니다.

비유: 아이가 장난감 블록을 쌓는 법만 배웠는데, 어느 날 보니 그 블록들로 복잡한 성을 쌓고 있다는 것과 같습니다.
논문의 결론: "다음 단어 예측"이라는 게임 규칙 자체가, 자연스럽게 숨겨진 개념들을 찾아내게 만드는 강력한 도구가 된다는 것입니다. 마치 퍼즐을 맞추는 과정에서 퍼즐 조각 (개념) 의 모양을 자연스럽게 알아차리게 되는 것과 같습니다.

4. 실용적 적용: "나쁜 학생 찾기 (SAE 평가)"

이 이론은 실제로 AI 를 더 잘 이해하고 제어하는 데 쓰일 수 있습니다. 특히 **희소 오토인코더 (SAE)**라는 도구를 평가하는 새로운 방법을 제안합니다.

비유: SAE 는 LLM 이 가진 복잡한 개념들을 '하나씩 분리해서' 인간이 이해할 수 있게 해주는 도구입니다. 하지만 이 도구가 제대로 작동하는지 확인하기가 어려웠습니다. (정답이 없기 때문)
이 논문의 해결책: "우리가 이론적으로 증명했으니, 이 SAE 가 찾아낸 개념이 '다음 단어 예측'에서 나온 개념과 선형적으로 일치하는지 확인하면 돼요."
- 마치 "이 학생이 배운 게 진짜 수학인지, 아니면 그냥 암기한 것인지 확인하기 위해, 우리가 아는 정답 (이론) 과 비교해보자"는 것입니다.
새로운 시도: 저자는 단순한 '희소성 (Sparse)'만 강조하는 기존 방식보다, **개념들 사이의 관계 (구조적 희소성)**까지 고려한 새로운 SAE 를 제안했고, 이것이 더 좋은 결과를 낸다는 것을 실험으로 증명했습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

LLM 은 인간을 모방한다: LLM 은 단순히 데이터를 외운 게 아니라, 인간이 세상을 이해하는 방식 (개념화) 을 자연스럽게 학습했습니다.
복잡함은 단순하다: LLM 의 내부 작동 원리는 생각보다 단순합니다. 복잡한 개념들이 선형적인 관계로 정리되어 있을 뿐입니다.
예측이 곧 이해: 다음 단어를 예측하는 것만으로도, AI 는 세상을 이해하는 핵심 개념들을 습득할 수 있습니다.

한 줄 요약:

"LLM 이 다음 단어를 맞추는 게임만 했을 뿐인데, 그 과정에서 인간이 세상을 이해하는 '개념 지도'를 스스로 그려냈고, 그 지도는 우리가 쉽게 읽을 수 있는 '선형적인' 형태로 존재한다는 것을 수학적으로 증명했다."

이 발견은 AI 가 왜 그렇게 똑똑해졌는지 이해하는 데 큰 이정표가 되며, 앞으로 AI 의 내부 작동 원리를 더 투명하게 만들고, 편향을 없애는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "I PREDICT THEREFORE I AM: IS NEXT TOKEN PREDICTION ENOUGH TO LEARN HUMAN-INTERPRETABLE CONCEPTS FROM DATA?" (나는 예측하되, 그러므로 존재한다: 다음 토큰 예측만으로 데이터에서 인간이 해석 가능한 개념을 학습할 수 있는가?) 라는 제목으로, 대규모 언어 모델 (LLM) 이 왜 그리고 어떻게 인간이 이해할 수 있는 추상적 개념 (감정, 문체, 성별 등) 을 내부 표현에 선형적으로 인코딩하는지에 대한 이론적 근거를 제시합니다.

아래는 논문의 주요 내용 (문제 정의, 방법론, 핵심 기여, 결과, 의의) 에 대한 상세한 기술적 요약입니다.

1. 문제 정의 (Problem)

배경: 최근 연구들은 LLM 의 내부 표현 (활성화) 이 인간이 해석 가능한 잠재 개념 (latent concepts) 을 선형적으로 인코딩한다는 실증적 증거를 보여주고 있습니다 (선형 표현 가설, Linear Representation Hypothesis).
한계: 그러나 이러한 표현이 왜, 그리고 어떻게 발생하는지에 대한 이론적 메커니즘은 여전히 불명확합니다. 기존 연구들은 주로 연속적인 변수를 가정하거나, 잠재 공간에서 관측 공간으로의 매핑이 가역적 (invertible) 이어야 한다는 강한 가정을 전제로 하여, 실제 이산적 (discrete) 인 언어 데이터의 특성을 충분히 반영하지 못했습니다.
핵심 질문: LLM 이 오직 '다음 토큰 예측 (Next-Token Prediction)'이라는 작업만 수행함에도 불구하고, 어떻게 복잡한 인간 해석 가능 개념을 포착하여 선형적으로 표현하게 되는가?

2. 방법론 (Methodology)

A. 제안된 잠재 변수 모델 (Latent Variable Model)

저자들은 텍스트 생성 과정을 모델링하기 위해 새로운 잠재 변수 모델을 제안합니다.

이산적 모델링 (Discrete Modeling): 기존 연구와 달리, 잠재 변수 $c$ (개념) 와 관측 변수 $x, y$ (텍스트 토큰) 를 모두 이산적 (discrete) 변수로 가정합니다. 이는 언어의 본질적 특성과 더 부합합니다.
비가역성 허용 (No Invertibility Requirement): 잠재 공간에서 관측 공간으로의 매핑 $g$ 가 가역적일 필요는 없다고 가정합니다. 즉, 서로 다른 개념 조합이 동일한 텍스트를 생성하거나, 일부 개념이 텍스트에 명시적으로 나타나지 않을 수 있음을 인정합니다. 이를 위해 근사적 가역성 (Approximate Invertibility) 개념 ( $\epsilon$ 오차 항 도입) 을 정의합니다.

B. 이론적 분석: 식별 가능성 (Identifiability)

다음 토큰 예측 프레임워크 내에서 LLM 이 학습한 표현 $f_x(x)$ 와 잠재 개념 $c$ 의 관계를 분석합니다.

가정:
1. 다양성 조건 (Diversity Condition): 관측된 토큰 집합이 충분히 다양하여 선형 독립을 이룰 것.
2. TV 조건 (Total Variation Condition): 특정 토큰에 대한 잠재 개념의 사후 확률 분포가 천천히 변할 것.
3. 커버리지 조건 (Coverage Condition): 조건부 사후 확률의 로그 값 차이가 유계 (bounded) 일 것.
주요 정리 (Theorem 3.1): 위 조건 하에서, LLM 의 표현 $f_x(x)$ 는 입력 맥락 $x$ 가 주어졌을 때 잠재 개념 $c$ 의 사후 확률의 로그 (log-posterior) 와 선형 변환 관계에 있음을 증명합니다.
$f_x(x) \approx A [\log p(c = c_i | x)]_i + b$
여기서 $A$ 는 선형 변환 행렬, $b$ 는 상수입니다. 이는 LLM 이 다음 토큰 예측을 최적화하는 과정에서 자연스럽게 잠재 개념의 확률 분포를 선형적으로 인코딩하게 됨을 의미합니다.

C. 실증적 검증 및 SAE 평가

선형 표현 가설의 통합: 위 정리를 통해 '개념의 방향성 (Concept as Directions)', '개념 조작 (Steering)', '선형 프로빙 (Linear Probing)' 등 다양한 선형 현상을 하나의 이론적 프레임워크로 통합하여 설명합니다.
희소 오토인코더 (SAE) 평가 프레임워크: 제안된 이론을 바탕으로, SAE 가 학습한 특징이 인간 해석 가능 개념을 얼마나 잘 분리해냈는지 평가하는 새로운 방법을 제시합니다.
- 구조화된 SAE (Structured SAE): 단순한 희소성 (Sparsity) 규제뿐만 아니라, 잠재 개념 간의 의존성을 모델링하기 위해 저랭크 (Low-rank) 정규화를 추가한 새로운 SAE 아키텍처를 제안합니다.

3. 핵심 기여 (Key Contributions)

이론적 식별 가능성 증명: 다음 토큰 예측을 통해 학습된 LLM 표현이 잠재 이산 개념의 로그 사후 확률과 선형적으로 연결됨을 엄밀하게 증명했습니다. 이는 비가역적인 매핑 상황에서도 성립합니다.
선형 표현 가설의 통합적 설명: LLM 의 다양한 선형 현상 ( steering vector, linear probing 등) 이 모두 동일한 기저 행렬 $A$ 를 통해 설명될 수 있음을 보였습니다.
새로운 SAE 평가 방법론: SAE 의 특징이 단일 개념 (monosemantic) 을 학습했는지 평가하기 위해, 선형 프로빙을 통해 추정한 사후 확률과 SAE 특징 간의 선형 상관관계를 측정하는 프레임워크를 제안했습니다.
구조화된 SAE 제안: 잠재 개념 간의 구조적 의존성을 고려한 저랭크 정규화를 도입하여, 기존 SAE 보다 개념 분리 (disentanglement) 성능이 뛰어난 모델을 개발했습니다.

4. 실험 결과 (Results)

시뮬레이션 데이터: 생성된 합성 데이터에서 관측 변수의 수가 증가할수록 (가역성 향상) 식별 가능성 이론이 더 잘 성립함을 확인했습니다. 다양한 그래프 구조 (DAG) 에서도 결과가 일관되었습니다.
실제 LLM (Pythia, Llama, DeepSeek-R1):
- 선형성 검증: 27 개의 반의어/유사어 쌍 (counterfactual pairs) 을 사용하여 개념 방향 벡터 ( $A_s$ ) 와 선형 분류기 가중치 ( $W_s$ ) 를 구한 후, 두 행렬의 곱 ( $A_s W_s$ ) 이 단위 행렬에 근사함을 확인했습니다. 이는 Corollary 4.3 의 이론적 예측을 강력하게 지지합니다.
- SAE 성능 비교: 제안된 평가 지표 (Pearson 상관관계) 를 사용하여 다양한 SAE 변형을 비교했습니다.
  - 구조화된 SAE가 기존 Top-k, Batch-top-k, p-annealing SAE 들보다 높은 상관관계 점수를 기록하며, 인간 해석 가능 개념을 더 잘 분리해냄을 보였습니다.
  - 재구성 오차 (MSE) 와도 일치하는 경향을 보였습니다.

5. 의의 및 결론 (Significance)

LLM 의 작동 원리 이해: LLM 이 단순히 통계적 패턴을 맞추는 것을 넘어, 데이터 생성의 근본적인 인과적 요인 (잠재 개념) 을 포착하고 이를 선형적으로 표현한다는 이론적 근거를 마련했습니다.
해석 가능성 (Interpretability) 의 진전: "왜 LLM 이 선형적인가?"에 대한 답을 제공함으로써, 기계 학습 모델의 내부 작동 방식을 더 깊이 이해하고 제어할 수 있는 기반을 제공합니다.
실용적 도구: 제안된 SAE 평가 방법과 구조화된 SAE 는 모델의 내부 표현을 더 명확하게 분리하고, 편향을 제거하거나 특정 개념을 조작하는 데 활용될 수 있는 강력한 도구가 될 것입니다.
미래 방향: 이 연구는 LLM 이 인간이 구축한 '압축된 세계 모델 (compressed world model)'을 모방한다는 관점을 지지하며, 향후 LLM 에 인과적 추론 능력을 부여하기 위한 선형 분리 (linear unmixing) 연구의 토대가 됩니다.

요약하자면, 이 논문은 다음 토큰 예측이라는 단순한 목표 함수가 어떻게 복잡한 인간 개념을 선형적으로 인코딩하는지에 대한 강력한 이론적 증명과, 이를 활용한 새로운 모델 해석 및 평가 도구를 제시한 획기적인 연구입니다.