Scale Dependent Data Duplication

이 논문은 모델의 규모가 커질수록 의미적으로 유사한 문서들이 표면적 중복과 유사하게 작용하여 학습에 해로운 영향을 미치고 스케일링 법칙을 왜곡한다는 점을 규명하여, 데이터의 의미적 중복이 모델 성능 예측에 미치는 규모 의존적 영향을 분석하고 이를 보정하는 스케일링 법칙을 제시합니다.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: "똑같은 내용을 다른 말로 말해도, AI 는 똑같이 들린다"

과거에는 AI 를 가르칠 때, 문자 그대로 똑같은 문서 (예: 복사 - 붙여넣기) 가 섞여 있으면 문제가 된다고만 생각했습니다. 그래서 데이터에서 중복을 제거하는 작업을 했습니다.

하지만 이 논문은 **"문자 그대로는 달라도, 의미가 같으면 AI 에겐 똑같은 데이터"**라고 말합니다.

  • 비유: Imagine you are teaching a child to recognize a "dog".
    • 작은 아이 (작은 AI): "강아지"라는 글자를 보고 강아지를 알아봅니다. "개"라고 쓰여 있거나, "멍멍이"라고 쓰여 있어도 처음엔 헷갈려할 수 있습니다. 표면적인 글자 (Surface form) 에만 집중합니다.
    • 성숙한 아이 (큰 AI): "강아지", "개", "멍멍이", 심지어 영어로 "Dog"라고 써도, 모두 같은 동물임을 깨닫습니다. 의미를 이해하는 능력이 생겼기 때문입니다.

결론: AI 가 똑똑해질수록, 번역된 문서나 비슷한 내용을 가진 문서들은 AI 에게 완전히 똑같은 정보로 인식되어 버립니다. 즉, AI 가 똑똑해질수록 실제 학습할 수 있는 '새로운' 정보의 양은 급격히 줄어듭니다.

2. 두 가지 발견: "AI 가 커질수록 데이터는 더 빨리 고갈된다"

연구진은 이 현상을 두 가지 측면에서 증명했습니다.

① AI 가 커질수록 '의미'가 겹치는 데이터가 폭발한다

우리가 인터넷에서 데이터를 모을 때, 1 억 개 문서 중에는 비슷한 내용이 많습니다. 작은 AI 는 이걸 다 다른 정보로 받아들여 학습합니다. 하지만 거대 AI 는 "아, 이거랑 저거랑 사실 같은 이야기구나"라고 파악합니다.

  • 비유: 도서관에 책이 100 권 있습니다.
    • 초보 독서왕: 100 권을 다 읽으면 100 가지 새로운 지식을 얻습니다.
    • 지식인: 100 권을 읽지만, 그중 80 권은 같은 내용을 다른 말로 쓴 책들이라, 실제로 얻은 새로운 지식은 20 가지뿐입니다.
    • 문제: AI 가 커질수록 (지식인이 될수록), 우리가 가진 데이터는 실제로는 훨씬 적게 느껴집니다.

② 인공 데이터 (Synthetic Data) 는 더 빨리 고갈된다

최근 AI 가 만든 텍스트 (인공 데이터) 를 학습에 많이 쓰는데, 이 데이터는 의미의 다양성이 매우 낮습니다.

  • 비유: 자연에서 채취한 야생 과일 (실제 데이터) 은 맛과 향이 다양합니다. 하지만 공장에서 만든 가짜 과일 (인공 데이터) 은 처음엔 맛있어 보이지만, 계속 먹다 보면 모두 똑같은 맛이라는 것을 금방 알게 됩니다.
  • 연구 결과, 인공 데이터는 실제 데이터보다 훨씬 적은 양에서 "의미가 겹치는 현상"이 발생했습니다. 즉, AI 를 더 키우려면 인공 데이터만으로는 부족하며, 진짜 다양성이 풍부한 데이터가 필수적입니다.

3. 해결책: "예측 가능한 실패"를 막는 새로운 공식

기존에는 "데이터를 더 많이 모으면 AI 는 계속 좋아질 것"이라고 믿었습니다 (규모의 법칙). 하지만 이 논문은 **"데이터의 '유일성'이 부족하면, AI 는 더 이상 좋아지지 않는다"**고 경고합니다.

연구진은 이 문제를 해결하기 위해 새로운 예측 공식을 만들었습니다.

  • 기존 생각: "데이터 2 배 = 성능 2 배" (단순한 선형 관계)
  • 새로운 생각: "데이터 2 배 = 성능 2 배 아님 (중복된 의미 때문에 성능 향상폭이 줄어듦)"

이 공식은 AI 개발자들이 **"우리가 가진 데이터가 AI 의 크기에 비해 얼마나 부족한지"**를 미리 계산하게 해줍니다. 마치 자동차 연비를 계산할 때, "도로가 막히면 (중복된 데이터) 연비가 떨어진다"는 사실을 미리 계산하는 것과 같습니다.

4. 요약: 우리에게 주는 교훈

  1. 단순한 데이터 양만 믿지 마세요: AI 가 커지면, 같은 내용을 여러 가지 방식으로 표현한 데이터도 '중복'으로 간주됩니다.
  2. 다양성이 생명입니다: AI 가 똑똑해질수록, 진정으로 새로운 의미를 가진 데이터가 필요합니다. AI 가 만든 텍스트만으로는 한계가 명확합니다.
  3. 현실적인 예측이 가능합니다: 이 논문의 공식을 쓰면, "이 데이터를 더 모으면 AI 가 얼마나 더 똑똑해질까?"를 정확히 예측할 수 있어, 막대한 예산을 낭비하는 일을 막을 수 있습니다.

한 줄 요약:

"AI 가 똑똑해질수록, 우리가 가진 데이터는 '의미'가 겹쳐서 실제로는 훨씬 적게 느껴집니다. 이제부터는 '데이터의 양'보다 '데이터의 진짜 다양성'에 집중해야 합니다."