Scale Dependent Data Duplication

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: "똑같은 내용을 다른 말로 말해도, AI 는 똑같이 들린다"

과거에는 AI 를 가르칠 때, 문자 그대로 똑같은 문서 (예: 복사 - 붙여넣기) 가 섞여 있으면 문제가 된다고만 생각했습니다. 그래서 데이터에서 중복을 제거하는 작업을 했습니다.

하지만 이 논문은 **"문자 그대로는 달라도, 의미가 같으면 AI 에겐 똑같은 데이터"**라고 말합니다.

비유: Imagine you are teaching a child to recognize a "dog".
- 작은 아이 (작은 AI): "강아지"라는 글자를 보고 강아지를 알아봅니다. "개"라고 쓰여 있거나, "멍멍이"라고 쓰여 있어도 처음엔 헷갈려할 수 있습니다. 표면적인 글자 (Surface form) 에만 집중합니다.
- 성숙한 아이 (큰 AI): "강아지", "개", "멍멍이", 심지어 영어로 "Dog"라고 써도, 모두 같은 동물임을 깨닫습니다. 의미를 이해하는 능력이 생겼기 때문입니다.

결론: AI 가 똑똑해질수록, 번역된 문서나 비슷한 내용을 가진 문서들은 AI 에게 완전히 똑같은 정보로 인식되어 버립니다. 즉, AI 가 똑똑해질수록 실제 학습할 수 있는 '새로운' 정보의 양은 급격히 줄어듭니다.

2. 두 가지 발견: "AI 가 커질수록 데이터는 더 빨리 고갈된다"

연구진은 이 현상을 두 가지 측면에서 증명했습니다.

① AI 가 커질수록 '의미'가 겹치는 데이터가 폭발한다

우리가 인터넷에서 데이터를 모을 때, 1 억 개 문서 중에는 비슷한 내용이 많습니다. 작은 AI 는 이걸 다 다른 정보로 받아들여 학습합니다. 하지만 거대 AI 는 "아, 이거랑 저거랑 사실 같은 이야기구나"라고 파악합니다.

비유: 도서관에 책이 100 권 있습니다.
- 초보 독서왕: 100 권을 다 읽으면 100 가지 새로운 지식을 얻습니다.
- 지식인: 100 권을 읽지만, 그중 80 권은 같은 내용을 다른 말로 쓴 책들이라, 실제로 얻은 새로운 지식은 20 가지뿐입니다.
- 문제: AI 가 커질수록 (지식인이 될수록), 우리가 가진 데이터는 실제로는 훨씬 적게 느껴집니다.

② 인공 데이터 (Synthetic Data) 는 더 빨리 고갈된다

최근 AI 가 만든 텍스트 (인공 데이터) 를 학습에 많이 쓰는데, 이 데이터는 의미의 다양성이 매우 낮습니다.

비유: 자연에서 채취한 야생 과일 (실제 데이터) 은 맛과 향이 다양합니다. 하지만 공장에서 만든 가짜 과일 (인공 데이터) 은 처음엔 맛있어 보이지만, 계속 먹다 보면 모두 똑같은 맛이라는 것을 금방 알게 됩니다.
연구 결과, 인공 데이터는 실제 데이터보다 훨씬 적은 양에서 "의미가 겹치는 현상"이 발생했습니다. 즉, AI 를 더 키우려면 인공 데이터만으로는 부족하며, 진짜 다양성이 풍부한 데이터가 필수적입니다.

3. 해결책: "예측 가능한 실패"를 막는 새로운 공식

기존에는 "데이터를 더 많이 모으면 AI 는 계속 좋아질 것"이라고 믿었습니다 (규모의 법칙). 하지만 이 논문은 **"데이터의 '유일성'이 부족하면, AI 는 더 이상 좋아지지 않는다"**고 경고합니다.

연구진은 이 문제를 해결하기 위해 새로운 예측 공식을 만들었습니다.

기존 생각: "데이터 2 배 = 성능 2 배" (단순한 선형 관계)
새로운 생각: "데이터 2 배 = 성능 2 배 아님 (중복된 의미 때문에 성능 향상폭이 줄어듦)"

이 공식은 AI 개발자들이 **"우리가 가진 데이터가 AI 의 크기에 비해 얼마나 부족한지"**를 미리 계산하게 해줍니다. 마치 자동차 연비를 계산할 때, "도로가 막히면 (중복된 데이터) 연비가 떨어진다"는 사실을 미리 계산하는 것과 같습니다.

4. 요약: 우리에게 주는 교훈

단순한 데이터 양만 믿지 마세요: AI 가 커지면, 같은 내용을 여러 가지 방식으로 표현한 데이터도 '중복'으로 간주됩니다.
다양성이 생명입니다: AI 가 똑똑해질수록, 진정으로 새로운 의미를 가진 데이터가 필요합니다. AI 가 만든 텍스트만으로는 한계가 명확합니다.
현실적인 예측이 가능합니다: 이 논문의 공식을 쓰면, "이 데이터를 더 모으면 AI 가 얼마나 더 똑똑해질까?"를 정확히 예측할 수 있어, 막대한 예산을 낭비하는 일을 막을 수 있습니다.

한 줄 요약:

"AI 가 똑똑해질수록, 우리가 가진 데이터는 '의미'가 겹쳐서 실제로는 훨씬 적게 느껴집니다. 이제부터는 '데이터의 양'보다 '데이터의 진짜 다양성'에 집중해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 데이터 중복 제거 (deduplication) 는 주로 **표면적 유사성 (exact matches, near-duplicates)**에 기반하여 수행됩니다. 그러나 웹 규모의 데이터셋에서 "중복"의 정의는 모델의 능력에 따라 달라진다는 점이 간과되어 왔습니다.

핵심 문제: 모델의 성능이 향상됨에 따라, **의미적으로 동일한 문서 (예: 번역본, 재구성된 문장)**가 표면적으로는 다르더라도 모델에게 **동일한 학습 신호 (gradient)**를 제공하게 됩니다.
규모 의존성 (Scale Dependence):
1. 모델 능력 증가: 모델이 커질수록 의미적 중복 (semantic duplicates) 이 정밀한 중복 (exact duplicates) 과 유사하게 작용하여 학습 신호를 중복시킵니다.
2. 데이터 규모 증가: 데이터셋이 커질수록 의미적 충돌 (semantic collisions) 의 빈도가 기하급수적으로 증가합니다.
결과: 이러한 현상은 기존에 예측했던 스케일링 법칙 (scaling laws) 을 붕괴시키고, 모델의 성능 저하를 초래할 수 있습니다.

2. 방법론 (Methodology)

저자들은 세 가지 주요 실험과 이론적 분석을 통해 위 가설을 검증했습니다.

A. 의미적 민감도의 출현 측정 (Emergence of Semantics)

실험: FineWeb-Edu-Dedup 데이터셋에서 1,000 개의 문서를 샘플링하고, 이를 번역, 문자 교체, 대소문자 변경 등의 **의미 보존 변환 (semantic-preserving transformations)**을 적용했습니다.
측정: 다양한 크기의 모델 (작은 모델 vs 큰 모델) 에 대해 문서별 크로스 엔트로피 손실의 **기울기 (gradient)**를 계산하고, 원본과 변환된 문서 간의 코사인 유사도를 비교했습니다.
기반: 무관한 문서 쌍 (negative baseline) 과 의미적으로 관련된 문서 쌍 (positives) 의 기울기 유사도를 비교하여 모델이 의미적 중복을 얼마나 잘 인식하는지 측정했습니다.

B. 의미적 충돌 분석 (Semantic Collisions)

데이터: FineWeb-Edu-Dedup 의 1 억 9,200 만 개 문서를 EmbeddingGemma-300m 으로 임베딩했습니다.
분석: 데이터셋 크기 ( $10^4$ 에서 $10^8$ 까지) 를 변화시키며 **최근접 이웃 (Nearest-Neighbor, NN)**의 코사인 유사도 분포를 분석했습니다.
비교: 실제 데이터와 합성 데이터 (Recycling-the-Web) 를 비교하여 의미적 다양성의 차이를 확인했습니다.

C. 제어된 전처리 실험 (Controlled Pretraining)

설계: 유한한 개수 ( $K$ ) 의 고유 문서 풀에서 **복원 추출 (sampling with replacement)**하여 학습 스트림을 생성했습니다. 이는 의도적으로 중복 데이터를 포함시킨 것입니다.
모델: 34M 에서 344M 파라미터까지의 Qwen 아키텍처 기반 트랜스포머 모델을 다양한 계산량 (FLOPs) 에 대해 훈련시켰습니다.
목표: $K$ 가 제한되었을 때 모델 규모에 따른 손실 (loss) 증가 패턴을 관찰하고, 기존 스케일링 법칙이 어떻게 깨지는지 확인했습니다.

D. 이론적 모델링 및 확장 법칙 유도

이론: 문서를 잠재 의미 (latent semantics, $z$ ) 와 표면 변환 ( $\tau$ ) 의 조합으로 모델링했습니다.
정의: 모델 파라미터 $\theta$ 에서 두 문서 $x, x'$ 가 $\epsilon$ -유효 중복 (effective duplicates) 이 되는 조건을 정의했습니다.
수식 유도: 의미적 민감도 ( $\rho$ ) 와 유효 샘플 크기 ( $n_{eff}$ ) 를 고려하여, 제한된 고유성 ( $K$ ) 으로 인한 손실 증가를 예측하는 **새로운 스케일링 법칙 (Restored Scaling Law)**을 유도했습니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

1. 의미적 중복의 규모 의존성 규명

결과: 작은 모델은 표면적 특징 (언어, 대소문자 등) 에 기반한 기울기를 보이지만, **큰 모델은 의미적 변환 (번역 등) 된 문서와 원본 문서 간의 기울기 방향이 매우 정렬 (aligned)**되는 것을 발견했습니다.
의미: 모델이 커질수록 의미적 중복이 실제 중복처럼 작용하여 학습 효율을 떨어뜨립니다.

2. 스케일링 법칙의 붕괴와 가속화된 충돌

결과: 중간 규모의 데이터셋에서는 최근접 이웃 유사도가 등방성 (isotropic) 파워 법칙을 따르지만, 데이터셋이 수천억 토큰 규모로 커지면 의미적 충돌이 예상보다 훨씬 빠르게 발생하여 법칙이 붕괴됩니다.
합성 데이터: 합성 데이터는 실제 데이터보다 더 일찍 (약 10 배 이상) 스케일링 법칙이 붕괴되는 것을 확인하여, 합성 데이터의 의미적 다양성 부족을 지적했습니다.

3. 제한된 고유성에 의한 성능 저하 및 예측 가능성 회복

결과: 작은 모델은 데이터 중복 ( $K$ 가 작음) 에 둔감하지만, 큰 모델은 $K$ 가 제한될 때 손실이 급격히 증가하여 기존 스케일링 법칙의 외삽 (extrapolation) 이 실패합니다.
해결책: 저자들은 **유효 재사용 비율 (effective reuse ratio)**을 도입하여 손실 증가를 정량화하는 **3 매개변수 평면 법칙 (3-parameter plane law)**을 제안했습니다.
- 공식: $\Delta(C, K) \approx a C^\beta K^{-\gamma}$
- 여기서 $C$ 는 계산량, $K$ 는 고유 문서 수, $\beta, \gamma$ 는 경험적 지수입니다.
실용적 도구: 실제 데이터셋에서 $K$ 를 직접 알 수 없으므로, 평균 최근접 이웃 코사인 유사도를 측정하여 **유효 고유 문서 수 ( $\hat{K}_{eff}$ )**를 추정하고, 이를 통해 손실을 정확히 예측할 수 있음을 보였습니다.

4. 의의 및 시사점 (Significance)

스케일링 예측의 정확성 향상: 기존에 "데이터가 무한하다"고 가정하고 수행하던 스케일링 예측이 의미적 중복으로 인해 왜곡될 수 있음을 지적하고, 이를 보정하는 이론적 프레임워크를 제공했습니다.
데이터 품질의 중요성 재조명: 단순히 데이터 양 (토큰 수) 을 늘리는 것만으로는 한계가 있으며, **의미적 다양성 (semantic diversity)**이 핵심 요소임을 강조했습니다. 특히 LLM 생성 합성 데이터의 경우 의미적 다양성이 부족하여 대규모 학습에 부적합할 수 있음을 경고했습니다.
실무적 가이드라인: 대규모 모델 훈련 시, 데이터셋의 의미적 중복도를 측정하고 이를 기반으로 필요한 데이터 양과 모델 크기를 더 정확하게 추정할 수 있는 방법론을 제시했습니다.
미래 방향: 의미적 중복을 제거하거나 다양성을 확보하는 새로운 데이터 전처리 파이프라인의 필요성과, 데이터 효율적인 아키텍처 개발의 중요성을 제기합니다.

요약

이 논문은 **"모델이 커질수록 의미적 중복이 실제 중복처럼 작용하며, 데이터 규모가 커질수록 이러한 충돌이 급증한다"**는 사실을 발견했습니다. 이는 기존 스케일링 법칙의 붕괴를 설명하며, 의미적 다양성을 고려한 새로운 스케일링 법칙을 제안함으로써 대규모 언어 모델의 성능 예측과 데이터 전략 수립에 중요한 통찰을 제공합니다.