The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "천재 건축가"와 "서툰 화가"

이 연구는 두 명의 인물이 함께 그림을 그리는 상황을 상상해 보세요.

**건축가 **(인코더) : 그림의 뼈대, 구조, 구도를 완벽하게 설계합니다.
**화가 **(디코더) : 그 설계도를 보고 실제 그림을 그립니다.

1. 문제 상황: "왜 그림이 안 그려질까?"

일반적으로 이 두 사람은 훈련을 받습니다. 처음에는 둘 다 서툴러서 그림이 엉망입니다. 그런데 이상한 일이 발생합니다.

건축가는 훈련 시작 몇 시간 만에 이미 완벽한 설계도를 그립니다. (수학적으로 필요한 모든 구조를 이미 알고 있습니다.)
하지만 화가는 그 설계도를 보고도 그림을 제대로 그리지 못합니다.
결과적으로, **완벽한 설계도가 있어도 실제 그림 **(정답)
이 긴 기다림 기간을 연구자들은 **'그로킹 **(Grokking, 갑작스러운 깨달음)이라고 부릅니다.

2. 핵심 발견: "지식은 있는데, 표현을 못 하는 것"

연구진은 "아마도 건축가가 구조를 배우는 데 시간이 걸리는 게 아니라, 화가가 설계도를 읽는 데 시간이 걸리는 것"이라고 의심했습니다. 이를 증명하기 위해 실험을 했습니다.

**실험 1 **(건축가 교체) : 이미 완벽한 설계도를 그린 숙련된 건축가를 데려와, 서툰 화가와 짝을 지었습니다.
- 결과: 화가는 설계도를 보고 바로 그림을 그릴 수 있게 되어, 학습 속도가 2.75 배 빨라졌습니다.
**실험 2 **(화가 교체) : 서툰 화가를 버리고 숙련된 화가를 데려와, 초보 건축가와 짝을 지었습니다.
- 결과: 오히려 그림이 더 엉망이 되었습니다.

결론: 문제는 "무엇을 배울지 모르는 것"이 아니라, **"배운 것을 어떻게 출력 **(그림)였습니다. 건축가는 이미 모든 걸 알고 있었지만, 화가가 그걸 해석하는 데 너무 오래 걸린 것입니다.

3. 결정적 변수: "숫자를 어떻게 쓰느냐?" (진법)

그런데 화가의 실력은 **숫자를 표현하는 방식 **(진법)에 따라 극적으로 달라졌습니다.

**2 진법 **(Binary) : 숫자를 0 과 1 로만 표현하면, 화가는 완전히 망가집니다. 설계도가 아무리 완벽해도, 0 과 1 로만 된 복잡한 구조를 해석할 수 없어 아예 그림을 못 그리게 됩니다. (이론상으로는 가능하지만, 실제로는 붓을 놓아버립니다.)
24 진법 : 숫자를 24 개 기호로 표현하면, 화가는 99.8% 의 완벽한 그림을 그립니다.
이유: 24 진법은 수학적인 규칙 (콜라츠 추측) 과 잘 맞습니다. 마치 화가가 "이런 색은 이렇게 섞으면 돼"라는 쉬운 규칙을 가진 팔레트를 받은 것과 같습니다. 반면 2 진법은 규칙이 너무 복잡해서 화가가 혼란을 겪는 것입니다.

4. 요약: 무엇을 배웠는가?

이 논문의 핵심 메시지는 다음과 같습니다.

"인공지능이 문제를 푸는 데 실패할 때, 그것은 '지식을 배우지 못해서'가 아니라 '배운 지식을 출력하는 방법을 아직 찾지 못해서'일 수 있다."

**건축가 **(인코더)는 아주 빨리 모든 수학적 규칙을 이해합니다.
**화가 **(디코더)는 그 규칙을 실제 답으로 바꾸는 데 훨씬 더 오래 걸립니다.
특히 **숫자를 어떻게 표현하느냐 **(진법)에 따라 화가의 난이도가 결정됩니다.

🚀 이 연구가 중요한 이유

우리가 AI 가 왜 갑자기 똑똑해지는지 (그로킹 현상) 이해하는 데 중요한 단서를 줍니다. AI 는 이미 알고 있을지도 모릅니다. 다만, 우리가 그걸 꺼내 쓰는 방법을 가르쳐주거나, AI 가 그걸 꺼내기 쉬운 환경 (올바른 진법 등) 을 만들어주면 훨씬 더 빨리, 더 잘 작동할 수 있다는 뜻입니다.

마치 천재 학생이 시험지를 받았는데, 문제를 다 풀었어도 '답안지 작성법'을 몰라서 점수를 못 받는 상황과 비슷하다고 볼 수 있습니다. 이 연구는 그 '답안지 작성법'을 어떻게 개선할지 알려줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인코더-디코더 아키텍처를 가진 트랜스포머 모델이 알고리즘적 산술 작업 (특히 1 단계 콜라츠 예측) 을 학습할 때 발생하는 '그로킹 (Grokking)' 현상의 지연 원인을 규명하고, 표현 (representation) 과 행동 (behavior) 사이의 괴리를 분석한 연구입니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 정의

그로킹 (Grokking) 현상: 알고리즘적 태스크에서 훈련된 트랜스포머는 훈련 데이터에 완벽하게 적합된 후에도, 테스트 세트에서의 일반화가 갑자기 발생하는 긴 지연 기간 (plateau) 을 보입니다.
핵심 질문: 이 지연은 모델이 필요한 산술 구조를 아직 학습하지 못했기 때문인가, 아니면 이미 학습된 구조를 디코더가 활용하지 못하기 때문인가?
작업: 1 단계 콜라츠 예측 (Collatz prediction). 입력 정수 $n$ 이 짝수이면 $n/2$ , 홀수이면 $3n+1$ 을 계산하여 해당 숫자의 자릿수 (digits) 를 예측하는 작업입니다. 이 작업은 짝수/홀수 분기, 나머지 정보, 자릿수 변환 등 다양한 난이도의 하위 문제를 포함합니다.

2. 방법론 (Methodology)

저자는 인코더와 디코더를 분리하여 분석하는 실험 설계를 통해 지연의 원인을 규명했습니다.

프로빙 (Probing): 훈련 중 인코더의 은닉 상태 (hidden states) 에서 선형 프로브 (linear probes) 를 사용하여 패리티 (parity, $n \pmod 2$ ) 및 저차원 나머지 (residue) 구조가 언제 선형적으로 추출 가능한지 측정했습니다.
인과적 개입 (Causal Interventions):
- 인코더 이식 (Encoder Transplant): 학습이 완료된 인코더를 고정하고 새로운 디코더를 훈련.
- 디코더 이식 (Decoder Transplant): 학습이 완료된 디코더를 고정하고 새로운 인코더를 훈련.
- 디코더 되감기 (Decoder Rewind): 학습이 완료된 인코더를 고정하고, 디코더를 초기 단계 (early checkpoint) 로 되돌린 후 디코더만 재훈련.
- 패리티 소거 (Parity Erasure): 인코더의 패리티 방향을 추론 시 제거하여 성능 저하를 측정.
기수 스윕 (Base Sweep): 15 가지 다른 진법 (Base 2, 3, 4, ..., 48 등) 을 사용하여 숫자 표현 방식이 디코더의 학습 난이도에 미치는 영향을 분석했습니다.
교차 작업 전이 (Cross-task Transfer): 콜라츠 예측과 GCD(최대공약수) 예측 간의 인코더 전이 실험을 수행했습니다.

3. 주요 결과 및 발견 (Key Results)

A. 인코더는 일찍 구조를 학습하지만, 디코더는 이를 활용하지 못함

지식과 행동의 괴리: 인코더는 훈련 시작 후 약 2,000 스텝 만에 패리티 (99.7% 정확도) 및 저차원 나머지 구조를 선형적으로 추출할 수 있게 되었습니다. 하지만 모델의 전체 시퀀스 정확도는 여전히 38% 수준으로, 수만 스텝 동안 '그로킹' 지연이 발생했습니다.
결론: 지연은 인코더가 구조를 배우지 못해서가 아니라, 디코더가 이미 학습된 인코더의 구조를 읽해내지 (readout) 못해서 발생합니다.

B. 디코더 읽기 (Readout) 가 병목 현상의 주원인

이식 실험: 학습된 인코더를 고정하고 새로운 디코더를 훈련하면 (Encoder Transplant), 그로킹이 2.75 배 가속화되었습니다. 반면, 학습된 디코더를 고정하고 새로운 인코더를 훈련하면 성능이 오히려 하락했습니다.
되감기 실험: 학습된 인코더를 고정하고 디코더만 초기화하여 재훈련하면 (Decoder Rewind), 긴 지연 구간이 거의 사라지고 즉시 성능이 향상되었습니다. 이는 지연이 디코더의 초기화 및 학습 역학에 있음을 시사합니다.
패리티 소거: 지연 구간 (plateau) 동안 인코더의 패리티 정보를 제거하면 성능이 크게 떨어지지만, 그로킹이 발생한 후에는 영향이 미미해집니다. 이는 초기 디코더가 단순한 선형 패리티 단서에 의존하다가, 추후 더 강건한 분산된 표현을 학습함을 보여줍니다.

C. 진법 (Numeral Base) 이 디코더 학습 난이도를 결정

진법의 영향: 사용된 진법은 디코더가 활용할 수 있는 '로컬 자릿수 구조 (local digit structure)'를 결정하는 유도 편향 (inductive bias) 역할을 합니다.
- 성공 사례: 24 진법 (2 와 3 의 공배수) 과 같이 콜라츠 맵의 산술 구조와 잘 맞는 진법은 99.8% 의 높은 정확도를 달성했습니다.
- 실패 사례: 2 진법 (Binary) 의 경우, 표현이 붕괴되어 (representational collapse) 정확도가 0 으로 떨어지고 회복되지 않았습니다. 이는 2 진법에서 홀수 분기 ( $3n+1$ ) 의 캐리 (carry) 전파가 복잡하여 디코더가 로컬 단서를 활용하기 어렵기 때문입니다.
짝수/홀수 분기 차이: 짝수 진법에서 짝수 분기 ( $n/2$ ) 는 로컬하게 계산 가능하지만, 홀수 분기 ( $3n+1$ ) 는 자릿수 전체에 걸친 캐리 전파가 필요하여 훨씬 어렵습니다.

D. 교차 작업 전이의 한계

콜라츠 예측으로 학습된 인코더를 GCD 예측에 적용하거나 그 반대의 경우, 성능이 크게 저하되었습니다. 이는 학습된 표현이 작업 특이적 (task-specific) 이거나 입력 포맷에 종속적임을 시사하며, 범용적인 산술 원시 연산 (primitive) 으로 재사용되기 어렵다는 것을 보여줍니다.

4. 의의 및 결론

지연된 일반화의 본질: 인코더-디코더 아키텍처에서 일반화 지연은 "지식의 부재"가 아니라 **"지식에 대한 접근의 부재 (lack of access)"**입니다. 모델 내부 (인코더) 에는 유용한 구조가 일찍 형성되지만, 이를 출력으로 변환하는 디코더 경로가 이를 활용하는 데 시간이 걸립니다.
표현의 중요성: 숫자 표현 방식 (진법) 은 모델의 학습 가능성 (learnability) 을 결정하는 핵심 요소입니다. 동일한 작업이라도 진법 선택에 따라 디코더가 로컬 구조를 활용할 수 있는지 여부가 달라지며, 이는 학습 곡선과 최종 성능에 지대한 영향을 미칩니다.
연구의 의의: 이 연구는 트랜스포머의 내부 표현과 외부 행동을 분리하여 분석함으로써, 알고리즘적 일반화 실패의 원인을 더 깊이 이해할 수 있는 틀을 제공합니다. 특히, 모델이 "무엇을 알고 있는지"와 "무엇을 할 수 있는지"가 다를 수 있음을 명확히 보여주었습니다.

요약하자면, 이 논문은 인코더가 산술 구조를 일찍 학습하지만, 디코더가 이를 읽어내는 데 실패하거나 시간이 걸리기 때문에 '그로킹' 지연이 발생하며, 이는 사용된 숫자 진법 (representation) 에 의해 크게 조절된다는 것을 증명했습니다.