I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

이 논문은 차기 토큰 예측을 통해 학습된 LLM 의 표현이 잠재적 이산 개념의 사후 확률 로그로 근사될 수 있음을 이론적으로 증명함으로써, LLM 이 인간이 해석 가능한 개념을 포착하는 메커니즘을 규명하고 선형 표현 가설에 대한 통합적 관점을 제시합니다.

Yuhang Liu, Dong Gong, Yichao Cai, Erdun Gao, Zhen Zhang, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 왜 인간의 생각을 이해할 수 있는 것처럼 작동하는가?"**라는 질문에 대한 새로운 답을 제시합니다.

간단히 말해, **"LLM 은 단순히 다음 단어를 예측하는 게임만 하고 있을 뿐인데, 어떻게 인간의 복잡한 개념 (감정, 성별, 문체 등) 을 마치 인간처럼 이해하고 표현할 수 있게 된 걸까?"**라는 의문에서 시작합니다.

이 복잡한 내용을 일상적인 비유로 풀어서 설명해 드리겠습니다.


1. 핵심 비유: "요리사와 레시피" vs "요리 결과물"

전통적인 AI 연구자들은 LLM 이 방대한 양의 텍스트 (인터넷 데이터) 를 읽으며 다음에 올 단어를 맞추는 훈련을 한다고 보았습니다. 마치 요리사가 레시피를 외워서 요리를 만드는 것처럼요.

하지만 이 논문은 **"아니, 그건 표면적인 현상일 뿐이야. 실제로는 더 깊은 원리가 작동하고 있어"**라고 말합니다.

  • 비유: LLM 이 텍스트를 생성할 때, 단순히 단어를 나열하는 게 아니라, 그 뒤에 숨겨진 **'의도'나 '개념 (Concept)'**이라는 보이지 않는 레시피를 먼저 떠올린 뒤, 그 레시피에 따라 단어를 고른다는 것입니다.
    • 예: "사랑"이라는 개념 (잠재 변수) 이 있을 때, 그 개념을 표현하기 위해 "달콤한", "뜨거운", "아픈" 같은 단어들을 선택하는 식입니다.

2. 주요 발견: "마법의 선형 변환 (Linear Transformation)"

이 논문은 수학적으로 증명했습니다. LLM 이 학습한 내부 표현 (뇌 속의 활동) 은 숨겨진 개념들의 확률을 아주 단순한 방식으로 표현하고 있다는 것입니다.

  • 비유: LLM 의 뇌속을 들여다보면, 복잡한 수학적 계산이 아니라 **"개념 A 가 80% 확률로 존재하고, 개념 B 가 20% 확률로 존재한다"**는 정보를 **직선 (선형)**으로 그려진 지도 위에 펼쳐놓고 있는 것과 같습니다.
  • 왜 중요할까요?
    • 이전에는 LLM 의 내부가 '블랙박스'처럼 복잡하고 해독 불가능하다고 생각했습니다.
    • 하지만 이 논문은 **"아니, 그건 그냥 개념들의 확률 값을 선으로 연결한 것뿐이야"**라고 밝혀냈습니다.
    • 마치 복잡한 악기를 해체해보니, 내부에는 단순한 나사 (개념) 와 스프링 (선형 관계) 만으로 구성되어 있는 것과 같습니다.

3. "예측만 했는데 어떻게?" (Identifiability)

가장 놀라운 점은, LLM 이 단순히 '다음 단어 예측'만 하도록 훈련받았음에도 불구하고 이 복잡한 개념 구조를 스스로 찾아냈다는 것입니다.

  • 비유: 아이가 장난감 블록을 쌓는 법만 배웠는데, 어느 날 보니 그 블록들로 복잡한 성을 쌓고 있다는 것과 같습니다.
  • 논문의 결론: "다음 단어 예측"이라는 게임 규칙 자체가, 자연스럽게 숨겨진 개념들을 찾아내게 만드는 강력한 도구가 된다는 것입니다. 마치 퍼즐을 맞추는 과정에서 퍼즐 조각 (개념) 의 모양을 자연스럽게 알아차리게 되는 것과 같습니다.

4. 실용적 적용: "나쁜 학생 찾기 (SAE 평가)"

이 이론은 실제로 AI 를 더 잘 이해하고 제어하는 데 쓰일 수 있습니다. 특히 **희소 오토인코더 (SAE)**라는 도구를 평가하는 새로운 방법을 제안합니다.

  • 비유: SAE 는 LLM 이 가진 복잡한 개념들을 '하나씩 분리해서' 인간이 이해할 수 있게 해주는 도구입니다. 하지만 이 도구가 제대로 작동하는지 확인하기가 어려웠습니다. (정답이 없기 때문)
  • 이 논문의 해결책: "우리가 이론적으로 증명했으니, 이 SAE 가 찾아낸 개념이 '다음 단어 예측'에서 나온 개념과 선형적으로 일치하는지 확인하면 돼요."
    • 마치 "이 학생이 배운 게 진짜 수학인지, 아니면 그냥 암기한 것인지 확인하기 위해, 우리가 아는 정답 (이론) 과 비교해보자"는 것입니다.
  • 새로운 시도: 저자는 단순한 '희소성 (Sparse)'만 강조하는 기존 방식보다, **개념들 사이의 관계 (구조적 희소성)**까지 고려한 새로운 SAE 를 제안했고, 이것이 더 좋은 결과를 낸다는 것을 실험으로 증명했습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

  1. LLM 은 인간을 모방한다: LLM 은 단순히 데이터를 외운 게 아니라, 인간이 세상을 이해하는 방식 (개념화) 을 자연스럽게 학습했습니다.
  2. 복잡함은 단순하다: LLM 의 내부 작동 원리는 생각보다 단순합니다. 복잡한 개념들이 선형적인 관계로 정리되어 있을 뿐입니다.
  3. 예측이 곧 이해: 다음 단어를 예측하는 것만으로도, AI 는 세상을 이해하는 핵심 개념들을 습득할 수 있습니다.

한 줄 요약:

"LLM 이 다음 단어를 맞추는 게임만 했을 뿐인데, 그 과정에서 인간이 세상을 이해하는 '개념 지도'를 스스로 그려냈고, 그 지도는 우리가 쉽게 읽을 수 있는 '선형적인' 형태로 존재한다는 것을 수학적으로 증명했다."

이 발견은 AI 가 왜 그렇게 똑똑해졌는지 이해하는 데 큰 이정표가 되며, 앞으로 AI 의 내부 작동 원리를 더 투명하게 만들고, 편향을 없애는 데 큰 도움이 될 것입니다.