Marginals Before Conditionals

Each language version is independently generated for its own context, not a direct translation.

1. 실험의 설정: "혼란스러운 카페"

연구진은 AI 에게 아주 특별한 과제를 주었습니다.

상황: 카페에 100 가지 종류의 커피 (B) 가 있습니다. 하지만 각 커피는 5 가지 다른 맛 (A) 으로 나올 수 있어, "이 커피는 무슨 맛일까?"라고 물으면 AI 는 5 가지 중 하나를 고르라고 막막해합니다. (이걸 K=5 의 모호함이라고 합니다.)
해결책: 하지만 주문할 때 **"선택지 (z)"**라는 작은 메모를 함께 줍니다. "메모를 보면 정확히 어떤 맛인지 알 수 있어!"라고요.
목표: AI 는 이 메모를 보고 정확한 맛을 맞춰야 합니다.

2. 놀라운 발견: "먼저 평균을 맞추고, 나중에 정답을 맞춘다"

AI 를 훈련시키자 아주 특이한 현상이 일어났습니다.

첫 번째 단계 (막판까지 멈춤): AI 는 처음에 메모 (z) 를 아예 무시하고, "가장 흔한 맛"이나 "모든 맛의 평균"을 예측합니다. 이때 실수율은 정확히 5 가지 가능성의 로그값만큼 유지됩니다.
- 비유: 마치 "오늘 메뉴가 5 가지 중 하나일 테니, 그냥 '아메리카노'라고만 답하는 것"과 같습니다. AI 는 이 상태에 수천 번의 훈련 동안 멈춰 서서 (플랫폼, Plateau) 아무 진전을 보이지 않습니다.
두 번째 단계 (갑작스러운 깨달음): 갑자기, 어느 순간 모든 AI 가 동시에 "아! 이 메모를 보면 정답이구나!"라고 깨닫습니다. 실수율이 0 으로 뚝 떨어지며, 메모를 보고 정답을 맞추기 시작합니다.
- 비유: 장난감을 조립하다가 갑자기 "아하! 이 부품을 이렇게 끼우면 되네!"라고 깨닫는 순간, 모든 부품을 한 번에 맞춰버리는 것과 같습니다.

3. 왜 이렇게 걸릴까? (핵심 원인)

이 연구는 왜 AI 가 이렇게 오랫동안 멈춰 있는지 그 이유를 밝혀냈습니다.

데이터 양이 중요하지, 난이도가 아니다:
- 만약 커피 종류가 5 가지에서 36 가지로 늘어난다면 (난이도 증가), AI 가 멈춰 있는 시간은 변하지 않았습니다.
- 대신, **훈련해야 할 커피의 총 개수 (데이터 양)**가 많아질수록 멈춰 있는 시간이 길어졌습니다.
- 비유: "메뉴가 5 개든 36 개든, AI 가 메모를 쓰는 법을 배우는 데 걸리는 시간은 비슷해요. 하지만 훈련을 시켜야 하는 커피가 100 잔인지 1,000 잔인지에 따라 걸리는 시간이 달라집니다."
소음 (Noise) 이 오히려 방해한다:
- 보통은 학습 과정에 약간의 '소음' (무작위성) 이 있으면 더 빨리 해결된다고 생각하기 쉽습니다. 하지만 이 연구에서는 소음이 많을수록 AI 가 그 멈춰 있는 상태 (평균 맞추기) 에서 벗어나는 데 더 오래 걸렸습니다.
- 비유: AI 가 평평한 바닥 (평균 상태) 에 앉아 있는데, 주변이 너무 시끄럽고 흔들리면 (소음), AI 는 "여기가 안전한 곳이야, 그냥 여기에 머물자"라고 생각해서 움직이기를 더 꺼리게 됩니다. 이를 **'엔트로피적 안정화'**라고 부릅니다.

4. 내부 작동 원리: "지휘자가 먼저 등장한다"

AI 내부의 신경망을 들여다보니, 실수가 줄어들기 약 50% 전에 이미 AI 의 특정 부위가 "메모 (z) 를 읽는 역할"을 맡고 있다는 신호가 나타났습니다.

비유: 오케스트라가 연주하기 전에, 지휘자가 먼저 지팡이를 들고 서서 지휘를 시작합니다. 그리고 지휘자가 준비가 되면, 전체 악단 (나머지 신경망) 이 한 번에 완벽한 연주를 시작하는 것과 같습니다.

5. 결론: AI 는 "역행"을 못 한다?

이 연구는 AI 가 "A 는 B 다"라고 배웠을 때, "B 는 A 다"라고 역으로 추론하는 것이 훨씬 어렵다는 현상 (역전 저주, Reversal Curse) 과도 연결됩니다.

구조화된 학습 (메모 활용): "메모가 있으면 정답을 맞출 수 있다"는 구조가 있으면 AI 는 쉽게 배웁니다.
단순 암기: 구조 없이 무작위로 "A 는 B 다"를 외우게 하면 AI 는 훨씬 더 느리게, 혹은 못 배웁니다.

요약하자면

이 논문은 **"AI 는 복잡한 문제를 해결할 때, 먼저 대충 맞는 답 (평균) 을 내고, 그 상태에서 데이터 양만큼 훈련을 쌓은 뒤, 갑자기 모든 것을 동시에 깨닫는 순간을 가진다"**는 사실을 증명했습니다.

이것은 AI 가 단순히 정보를 주입받는 기계가 아니라, 내부적으로 복잡한 구조를 조립하고, 특정 조건이 갖춰지면 비약적으로 발전하는 '생각의 과정'을 가진 존재임을 보여줍니다. 마치 아이에게 장난감을 주면 처음엔 막상막하하다가, 어느 순간 갑자기 조립법을 터득하고는 모든 부품을 한 번에 맞춰버리는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

신경망은 구조화된 작업을 학습할 때 단계적으로 진행됩니다. 기존 연구들은 '기억 (memorization) 에서 일반화 (generalization) 로의 전환' (Grokking 현상) 을 주로 다루었지만, 이 논문은 주변부 예측 (marginal prediction) 에서 조건부 예측 (conditional prediction) 으로 전환되는 과정에 초점을 맞춥니다.

핵심 질문: 모델이 입력의 일부 (선택자 토큰 $z$ ) 를 사용하여 불확실성을 해결하는 조건부 학습을 수행하기 전에, 왜 먼저 선택자를 무시한 채 평균적인 분포 (주변부) 를 학습하는지에 대한 메커니즘은 무엇인가?
배경: 이는 '역전 Curse (Reversal Curse)'나 '시간의 화살 (Arrow of Time)'과 관련된 방향성 비대칭 (directional asymmetry) 현상과 연결됩니다. 즉, 모델이 $P(A|B)$ 는 쉽게 학습하지만, $P(A|B, z)$ 와 같은 조건부 학습은 훨씬 더 오랜 시간이 걸리거나 학습되지 않는 현상을 규명합니다.

2. 방법론 (Methodology)

2.1. 제어된 작업 (Controlled Task)

저자는 조건부 학습을 격리하기 위해 다음과 같은 최소한의 작업을 설계했습니다:

작업 정의: $K$ $K$ -겹의 모호성 (ambiguity) 을 가진 전사 (surjective) 매핑입니다.
- 입력: 베이스 문자열 $B$ (6 자) 와 선택자 토큰 $z$ (2 자).
- 출력: 타겟 문자열 $A$ (4 자).
- 구조: 각 $B$ 는 $K$ 개의 서로 다른 $A$ 에 매핑됩니다. $z$ 는 $K$ 개 중 하나를 선택하여 $(B, z) \to A$ 관계를 1:1 로 만듭니다.
정보 이론적 특성:
- $z$ 를 무시할 때의 엔트로피: $H(A|B) = \log K$ (모델은 $K$ 개의 후보 중 하나를 무작위로 예측).
- $z$ 를 사용할 때의 엔트로피: $H(A|B, z) = 0$ (완벽한 예측).
모델: 4 층 Transformer (파라미터 약 60 만 개, AdamW 옵티마이저 사용).

2.2. 진단 지표 (Diagnostics)

$z$ -셔플 갭 ( $\Delta_z$ ): $z$ 토큰을 배치 내에서 무작위 순서로 섞었을 때와 원래 순서일 때의 손실 차이. $\Delta_z = 0$ 이면 모델이 $z$ 를 무시하고 있으며, $\Delta_z > 0$ 이면 $z$ 를 활용하기 시작했음을 의미합니다.
대기 시간 ( $\tau$ ): 손실이 $\log K$ 의 50% 미만으로 떨어지는 시점.
학습 단계: 손실이 $\log K$ 수준으로 수렴한 후 (주변부 학습), 긴 평탄 구간 (Plateau) 을 거친 뒤 급격히 0 에 수렴하는 (조건부 학습) 단계를 관찰합니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

3.1. 단계적 모호성 해소 (Staged Disambiguation)

모든 실험에서 두 가지 명확한 단계가 관찰되었습니다:

주변부 수렴: 모델은 수백 스텝 내에 손실이 $\log K$ 수준으로 떨어집니다. 이때 모델은 $z$ 를 무시하고 $K$ 개의 후보를 균일하게 예측합니다.
긴 평탄 구간 (Plateau): 손실이 $\log K$ 에 머무는 구간이 수천 스텝 동안 지속됩니다.
급격한 전환 (Sharp Transition): 특정 시점 ( $\tau$ ) 에 손실이 급격히 0 으로 떨어지며 조건부 학습이 완성됩니다.

3.2. 평탄 구간의 지속 시간 결정 요인

모호성 ( $K$ ) 은 영향 없음: 평탄 구간의 높이 (Loss 값) 는 $\log K$ 에 비례하지만, 지속 시간 ( $\tau$ ) 은 $K$ 와 무관합니다.
데이터셋 크기 ( $D$ ) 가 결정적: $D = n_b \times K$ 일 때, $D$ 를 고정하고 $K$ 를 변화시켜도 $\tau$ 는 변하지 않습니다. 반면, $D$ 를 증가시키면 $\tau$ 는 증가합니다.
스케일링 법칙: $\tau \propto D^{1.19}$ (데이터셋 크기에 대해 초선형 스케일링). 즉, 모델은 모든 $D$ 개의 쌍에 대해 $z$ 를 라우팅하는 방법을 학습해야 하므로, 데이터 양이 많을수록 조건부 학습으로 전환되는 데 더 오랜 시간이 걸립니다.

3.3. 집단적 전환 (Collective Snap)

전환은 그룹별로 점진적으로 일어나는 것이 아니라 동시에 발생합니다.
$\tau/2$ 시점에서는 샘플링된 그룹 중 80% 정확도를 달성한 그룹이 0% 였으나, $\tau$ 시점에 거의 모든 그룹이 동시에 전환되었습니다. 이는 네트워크 내부의 공통 회로 (circuit) 가 동시에 작동하기 시작함을 시사합니다.

3.4. 엔트로피적 안정화 (Entropic Stabilization)

경사 노이즈의 역할: 평탄 구간은 국소 최소값이 아니라 안장점 (Saddle point) 입니다.
노이즈가 탈출을 지연시킴: 일반적으로 노이즈가 많으면 국소 최소값에서 탈출이 빨라져야 하지만, 이 작업에서는 노이즈가 증가할수록 (학습률 증가, 배치 크기 감소) 평탄 구간이 더 길어집니다.
메커니즘: 모델이 학습하는 주변부 해법은 낮은 경사 노름 (low-gradient) 상태를 가지며, $K$ 개의 경쟁 방향이 서로 상쇄됩니다. SGD 의 노이즈는 이 낮은 경사 상태를 벗어나는 것을 방해하는 '엔트로피적 힘'으로 작용하여, 모델이 안장점에 머무르게 합니다.
기하학적 구조: 헤시안 (Hessian) 분석 결과, 탈출 방향은 지배적인 곡률 방향보다 500~1,000 배 더 평평한 (shallow) 안장점 구조를 가집니다.

3.5. 내부 메커니즘 및 회로 형성

선택자 라우팅 헤드: 손실이 떨어지기 약 50% 전 ( $\sim 0.5\tau$ ) 에 내부의 특정 헤드 (Layer 0, Head 3) 가 $z$ 정보를 라우팅하기 시작합니다.
인과적 분석: 이 헤드를 제거하면 전환이 지연되거나 손실이 크게 증가합니다. 이는 내부 회로가 형성된 후 외부 손실 지표가 반응함을 보여줍니다.

3.6. 방향성 비대칭 (Directional Asymmetry)

역전 Curse 와의 연결: $A \to B$ (모호성 없음, 순방향) 작업은 $(B, z) \to A$ (모호성 있음, 역방향) 작업보다 1.7~4.4 배 더 느리게 학습됩니다.
이유: 역방향 작업은 그룹 구조 ( $B$ ) 를 공유하여 회로 재사용이 가능하지만, 순방향 작업은 각 쌍을 독립적으로 암기해야 하기 때문입니다.

4. 결론 및 의의 (Significance)

학습 역학의 새로운 관점: 모델이 조건부 학습을 수행하기 전에 먼저 주변부 분포를 학습하고, 그 후 집단적으로 전환된다는 '단계적 학습' 메커니즘을 정량화했습니다.
노이즈의 이중적 역할: SGD 의 노이즈가 단순히 탐색을 돕는 것이 아니라, 특정 기하학적 구조 (평평한 안장점) 에서는 학습을 지연시키는 안정화 요인으로 작용할 수 있음을 증명했습니다.
데이터 크기의 중요성: 모호성 ( $K$ ) 의 복잡도보다는 처리해야 할 데이터의 총량 ( $D$ ) 이 학습 전환 속도를 결정하는 핵심 인자임을 밝혔습니다.
실용적 시사점: 이 현상은 대규모 언어 모델 (LLM) 의 역전 Curse 나 시간의 화살 문제와 구조적으로 유사합니다. 이를 이해함으로써 모델의 학습 효율을 높이기 위한 커리큘럼 학습, 보조 손실 함수, 또는 아키텍처 개선 (라우팅 인덕티브 바이어스) 등의 전략을 모색할 수 있습니다.

이 연구는 최소화된 작업을 통해 복잡한 신경망 학습 역학을 정밀하게 분리하고, 정보 이론적 지표와 기계적 해석 (mechanistic interpretability) 을 결합하여 학습 과정을 설명했다는 점에서 중요한 의의를 가집니다.