How Large Language Models Get Stuck: Early structure with persistent errors

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 주제: "아기 언어 모델의 성장 과정과 '나쁜 습관'"

이 연구는 거대 언어 모델 (OPT) 을 마치 아기처럼 훈련시켰습니다. 최신 모델들이 수조 개의 단어를 배우는 것과 달리, 이 모델은 '베이비 램 (BabyLM)'이라는 1 억 단어 정도의 작은 데이터로만 훈련되었습니다. 연구자들은 이 모델이 문법을 어떻게 배우는지, 그리고 어떤 시기에 어떤 실수를 저지르면 그 실수가 평생 고쳐지지 않는지 관찰했습니다.

1. 실험 방법: "올바른 문장 vs 틀린 문장" 대결

연구자들은 모델에게 67 가지 종류의 문법 테스트를 시켰습니다.

예시: "제이슨이 보고서를 읽기 전에 어떤 보고서를 제출했나요?" (올바른 문장) vs "제이슨이 보고서를 읽기 전에 어떤 보고서를 제출했나요?" (틀린 문장, 어색함)
모델은 두 문장 중 어떤 것이 더 자연스러운지 확률로 판단해야 합니다.

2. 주요 발견: "실수는 일찍, 그리고 영구적으로"

놀라운 사실은 모델이 문법을 배우는 과정에서 세 가지 패턴을 보인다는 것입니다.

🌟 성공적인 학습 (CES): 처음부터 틀린 문장보다 올바른 문장을 더 좋아했습니다. (예: 주동사 일치, 수동태 등)
⏳ 늦은 성공 (CLS): 처음엔 헷갈렸지만, 훈련이 많이 진행되면서 나중에 깨달았습니다.
🚫 치명적인 실수 (EES): 가장 중요한 발견입니다. 약 3 분의 1 의 문법 규칙 (특히 '섬 제약' 같은 복잡한 문법) 에서 모델은 훈련 초기에 이미 틀린 문장을 더 좋아하게 되었습니다. 그리고 훈련을 아무리 오래 시켜도 이 실수를 고치지 못했습니다. 마치 어릴 때 잘못 배운 습관이 평생 고쳐지지 않는 것과 같습니다.

3. 왜 이런 일이 일어날까요? "빅그램 (Bigram) 의 함정"

연구자들은 이 현상을 설명하기 위해 **"빅그램 가설"**이라는 흥미로운 이론을 제시했습니다.

💡 비유: "아기 언어 모델은 처음에 '이웃 단어'만 보고 판단합니다."

아기 언어 모델이 훈련 초기에는 문장의 전체적인 구조 (나무의 가지치기) 를 이해하기보다, 바로 앞의 단어와 바로 뒤의 단어만 보고 "어떤 단어가 올 확률이 높은가?"를 계산합니다. 이를 '빅그램 (2 단어 조합)' 통계라고 합니다.

상황: 어떤 문법 규칙에서 '올바른 문장'은 전체 구조는 맞지만, 인접한 두 단어의 조합이 드뭅니다. 반면 '틀린 문장'은 전체 구조는 엉망이지만, 인접한 두 단어의 조합이 매우 흔합니다.
결과: 훈련 초기의 모델은 "인접한 단어가 흔하니까 이 문장이 더 자연스러워!"라고 착각합니다.
고착화: 이 착각이 훈련 초기에 굳어지면, 나중에 문장 전체 구조를 배우더라도 그 '나쁜 습관'을 버리기 너무 어려워져서 영원히 틀린 문장을 더 좋아하게 됩니다.

실제 예시:

좋은 문장: "패트릭은 대화하기가 짜증나 (irritating) 다." (전체 문법 맞음)
나쁜 문장: "패트릭은 약속 (about) 하려고 대화하기로 했다." (전체 문법 틀림)
모델의 착각: 'irritating'이라는 단어는 매우 드물고, 'about'이라는 단어는 매우 흔합니다. 모델은 "아, 'about'이 더 자주 쓰이니까 두 번째 문장이 더 자연스러워!"라고 판단해 버립니다. 전체 문맥을 무시하고 '인접한 단어'의 빈도수에 속은 것입니다.

4. 연구의 의의: "언어학자가 AI 를 도와줄 수 있을까?"

이 연구는 AI 개발자들에게 중요한 메시지를 줍니다.

문제: AI 가 문법을 배우는 데 실패하는 이유는 단순히 '데이터가 부족해서'가 아니라, 훈련 초기의 '나쁜 통계적 습관'에 빠졌기 때문일 수 있습니다.
해결책: AI 를 훈련시킬 때, 처음부터 '인접한 단어'의 빈도수에만 의존하지 않도록 의도적으로 문장 구조를 강조하는 훈련 방법을 도입해야 합니다. 즉, 아기가 걸음마를 배울 때 넘어지지 않도록 도와주듯이, AI 가 초기에 잘못된 길로 빠지지 않도록 유도해야 효율적으로 학습시킬 수 있습니다.

📝 한 줄 요약

"거대 언어 모델은 훈련 초기에 '단어들의 짝꿍' 빈도수에 속아 문법 실수를 저지르면, 그 실수가 평생 고쳐지지 않는 '나쁜 습관'으로 굳어버린다. 이 시기를 잡아내어 훈련 방식을 바꾸면 더 똑똑한 AI 를 만들 수 있다."

이 연구는 인공지능이 어떻게 배우는지, 그리고 왜 인간처럼 완벽하지 않은지 이해하는 데 중요한 통찰을 제공합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대형 언어 모델 (LLM) 은 자연어의 문법적 및 의미적 규칙성을 놀라운 수준으로 학습하지만, 훈련 비용이 매우 높고 인간의 언어 능력에 미치지 못하는 체계적인 한계를 보입니다. 특히, 일부 문법적 현상 (예: 섬 제약 (Island Constraints), NPI 라이선싱 등) 에 대해 모델이 문법적으로 올바른 문장보다 문법적으로 틀린 문장에 더 높은 확률 (낮은 퍼플렉시티) 을 부여하는 오류를 영구적으로 반복하는 경우가 있습니다.

이 연구는 언어 이론의 통찰을 활용하여 LLM 이 성공하거나 실패하는 지점을 규명하고, 이러한 실패가 훈련의 어떤 시점에 발생하며 왜 고착화되는지 분석하는 것을 목표로 합니다.

2. 연구 방법론 (Methodology)

2.1 데이터 및 모델

모델: Meta 의 OPT 모델을 사용했습니다.
데이터: 최신 LLM 들에 비해 발달적으로 더 타당한 (developmentally plausible) BabyLM 100M 단어 코퍼스로 훈련했습니다.
평가 벤치마크: **BLiMP (Benchmark of Linguistic Minimal Pairs)**를 사용했습니다. 이는 67 가지 문법 범주로 구성된 데이터셋으로, 각 범주는 문법적으로 올바른 문장과 특정 문법 규칙 위반 문장 (미니멀 페어) 으로 구성됩니다.

2.2 훈련 및 평가 프로세스

체크포인트 분석: 훈련 중 모델의 파라미터를 불규칙한 간격 (초기에는 밀집, 후기에는 희소) 으로 저장하여 30,800 회의 업데이트 단계까지의 궤적을 추적했습니다.
성능 지표: 문법적 문장 ( $s_{good}$ $s_{g oo d}$ ) 과 비문법적 문장 ( $s_{bad}$ $s_{ba d}$ ) 에 대한 **퍼플렉시티 (Perplexity, PPL)**를 계산했습니다.
- 모델이 정답인 경우: $PPL(s_{good}) < PPL(s_{bad})$
- 오분류된 경우: $PPL(s_{good}) > PPL(s_{bad})$
변화점 탐지 (Change-Point Detection): 문법적 민감도가 언제 형성되는지 파악하기 위해 CUSUM 및 Ruptures 프레임워크를 사용하여 퍼플렉시티 차이 ( $\Delta \log PPL$ ) 가 통계적으로 유의미하게 분리되는 시점 (체크포인트) 을 탐지했습니다.

2.3 학습 궤적 분류

67 개의 BLiMP 범주를 초기 (훈련 30%) 와 후기 (훈련 70% 이후) 의 평균 퍼플렉시티 차이를 기준으로 4 가지 범주로 분류했습니다.

CES (Correct Early and Sustained): 초기부터 올바르게 분리되고 유지됨.
EES (Erroneous Early and Sustained): 초기에 잘못 분리되고 훈련 내내 유지됨 (고착화).
CLS (Correct Late Separation): 초기에는 구분되지 않다가 후기에서 올바르게 분리됨.
ELS (Erroneous Late Separation): 초기에는 올바르다가 후기에서 잘못 분리됨 (관측되지 않음).

3. 주요 결과 (Key Results)

3.1 성능 및 상관관계

훈련 데이터 양이 적고 훈련 시간이 짧음에도 불구하고, OPT 모델의 BLiMP 성능 패턴은 GPT-2, LSTM, 5-gram 모델 및 인간 평가자와 양의 상관관계를 보였습니다 ( $\rho \approx 0.38 \sim 0.60$ ). 이는 발달적 분석이 고도화된 모델의 개선에 유용할 수 있음을 시사합니다.

3.2 오류의 고착화 (EES 현상)

**67 개 범주 중 약 1/3 (24 개)**에서 모델은 초기 훈련 단계에서 문법적 문장보다 비문법적 문장에 더 높은 확률을 부여하는 오류를 범했습니다.
이 오류는 훈련이 진행됨에 따라 수정되지 않고 **영구적으로 유지 (Sustained)**되었습니다.
변화점 분석 결과:
- CES와 EES 범주 모두 **훈련 초기 (약 5,000~7,000 번째 업데이트)**에 문법적/비문법적 구분이 명확히 형성되는 시점을 보였습니다.
- CLS 범주는 훨씬 후기 (약 20,000 이후) 에야 올바른 분리가 이루어졌습니다.
- 이는 모델이 훈련 초기의 "결정적 창 (critical window)"에서 구조를 형성할 때, 잘못된 경향성이 강하게 고착되면 이후에 이를 교정하는 것이 매우 어렵다는 것을 의미합니다.

3.3 Bigram 가설 (The Bigram Hypothesis)

연구진은 EES 현상의 원인을 설명하기 위해 Bigram 가설을 제시했습니다.

가설 내용: 훈련 초기, LLM 은 장기 의존성 (long-range dependencies) 을 학습하기 전에 이그램 (Bigram, 인접한 두 단어) 통계에 크게 의존하는 상태로 작동합니다.
메커니즘: 만약 특정 문법 범주에서 비문법적인 문장의 이그램 통계가 문법적인 문장보다 훨씬 빈번하다면, 모델은 초기에 이 잘못된 통계에 이끌려 잘못된 구조를 학습하게 됩니다. 이후 문법적 규칙을 학습하더라도 초기에 형성된 강력한 편향 (bias) 을 극복하기 어렵기 때문에 오류가 영구화됩니다.
검증:
- EES (오류 고착) 그룹: 12/14 개 사례에서 Bigram 통계가 모델의 잘못된 판단을 설명했습니다 (예: 'Tough-vs-Raising' 구조에서 'about'과 'irritating'의 빈도 차이).
- CES (올바른 학습) 그룹: 30/30 개 사례에서 Bigram 통계가 모델의 올바른 판단을 지지하거나 방해하지 않았습니다.

4. 주요 기여 및 의의 (Contributions & Significance)

오류 고착의 시점 규명: LLM 의 문법적 실패가 훈련 말기에 발생하는 것이 아니라, 초기 구조 형성 단계에서 결정되며 이후 수정되지 않는다는 것을 실증적으로 증명했습니다.
Bigram 가설의 제안: LLM 이 왜 특정 문법적 오류에 갇히는지 설명하는 새로운 이론적 틀을 제시했습니다. 이는 모델이 장기 의존성 학습 전에 국소적 (local) 통계에 과도하게 의존하는 경향을 가리킵니다.
효율적인 훈련 전략 제안:
- 기존 방식처럼 단순히 더 많은 데이터나 더 긴 훈련 시간으로 해결하려는 접근보다는, 초기 훈련 단계에서 모델이 잘못된 통계적 편향에 빠지지 않도록 훈련 전략을 수정하거나 (예: Bigram 편향을 보정하는 손실 함수 도입, 초기 데이터 샘플링 전략 변경) 초점을 맞추는 것이 더 효율적일 수 있음을 시사합니다.
질적 및 양적 분석의 결합: BLiMP 데이터셋의 각 항목이 Bigram 가설을 검증하는 데 적합한지 여부를 질적으로 평가하고, 이를 통해 의미적으로 혼란스러운 항목을 제외함으로써 분석의 엄밀성을 높였습니다.

5. 결론

이 논문은 대형 언어 모델이 특정 문법적 규칙을 학습하지 못하는 이유가 단순한 데이터 부족이 아니라, 훈련 초기에 형성된 잘못된 구조적 편향 때문일 수 있음을 보여줍니다. 특히, Bigram 통계가 초기 학습을 왜곡하여 영구적인 오류를 초래한다는 가설은 향후 더 효율적이고 인간과 유사한 언어 능력을 가진 모델을 개발하기 위한 새로운 훈련 패러다임 (초기 구조 제어) 의 필요성을 제기합니다.