Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

이 논문은 92 개의 오픈소스 언어 모델을 메타 분석하여 모델 크기와 학습 토큰 수 외에 데이터 구성과 아키텍처 설계 결정이 하류 작업 성능에 미치는 영향을 정량화함으로써, 단순한 확장 법칙을 넘어선 모델 설계의 중요성을 규명했습니다.

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"큰 언어 모델 (LLM) 의 성능은 단순히 '크기'와 '학습량'만으로 결정되는 것이 아니다"**라는 놀라운 사실을 밝혀냈습니다.

기존의 통념은 "모델이 더 크고, 더 많은 데이터를 학습할수록 똑똑해진다"는 것이었습니다. 마치 **"책이 두꺼울수록 지식이 많고, 독서 시간이 길수록 지혜가 깊어진다"**고 믿는 것과 비슷하죠. 하지만 이 연구는 **"책의 두께나 독서 시간도 중요하지만, 그 책이 '무엇'에 대해 쓰였는지 (내용의 구성) 와 '어떤 방식'으로 읽혔는지 (설계)"**가 훨씬 더 중요할 수 있다고 말합니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드릴겠습니다.


1. 비유: "요리사 (모델) 와 레시피 (학습 데이터)"

이 연구를 요리사에 비유해 보겠습니다.

  • 기존의 생각 (스케일링 법칙): "요리사가 더 큰 부엌 (큰 모델) 에서 더 많은 식재료를 (많은 데이터) 사용하면, 당연히 더 맛있는 요리를 할 거야."
  • 이 연구의 발견: "아니요! 부엌이 작아도 올바른 레시피고급 식재료를 쓰면, 거대한 부엌에서 아무거나 섞어 만든 요리보다 훨씬 맛있는 요리를 할 수 있어요."

연구진들은 2019 년부터 2024 년까지 공개된 92 개의 다양한 AI 모델을 모아 분석했습니다. 마치 수백 명의 요리사들의 레시피와 재료 목록을 모아 비교한 것과 같습니다.

2. 주요 발견: "무엇을 먹였느냐가 더 중요하다"

연구진은 모델의 성능을 예측할 때, 단순히 '크기'와 '데이터 양'만 보는 것이 아니라 데이터의 구성 비율모델의 설계를 함께 보았습니다. 그 결과, 예측 정확도가 3% 에서 28% 까지 크게 향상되었습니다.

🍳 비유: "코딩 (Code) 과 일반 텍스트 (Web) 의 균형"

  • 발견: 모델에게 코딩 데이터 (프로그래밍 언어) 를 얼마나 섞어주느냐에 따라 성능이 달라집니다.
  • 비유: 요리사가 **매운 고추 (코드 데이터)**를 얼마나 넣느냐에 따라 요리가 달라집니다.
    • 고추를 전혀 안 넣으면: 매운맛 (코딩 능력) 이 부족합니다.
    • 고추를 너무 많이 넣으면: 매워서 다른 맛 (일반 대화, 논리 추론) 을 망칩니다.
    • 최적의 비율: 연구에 따르면, 전체 식재료의 15~25% 정도를 고추 (코드) 로 섞었을 때, 매운맛 (코딩) 과 다른 맛 (일반 언어) 을 모두 살리는 '황금 레시피'가 됩니다.

🌐 비유: "인터넷 뉴스 (Web) 와 진실 (Truthfulness)"

  • 발견: 인터넷 웹 데이터 (뉴스, 블로그, SNS 등) 가 너무 많으면 모델이 거짓말을 잘하게 됩니다.
  • 비유: 인터넷은 소문과 가짜 뉴스가 넘치는 광장과 같습니다. 이 광장에서만 너무 오래 지내면, 모델은 "사실일 수도 있는 소문"을 진짜 사실로 믿게 되어 **진실성 (Truthfulness)**이 떨어집니다. 반면, 교과서나 백과사전 같은 '신뢰할 수 있는 자료'를 더 많이 학습해야 정확한 답을 합니다.

3. 설계의 중요성: "요리 도구의 차이"

데이터만 중요한 게 아닙니다. 모델을 만드는 **설계 (아키텍처)**도 중요합니다.

  • 비유: 같은 재료를 써도, 칼을 어떻게 쓰는지 (레이어 정규화 방식), **냄비 뚜껑을 언제 닫는지 (위치 인코딩)**에 따라 요리 맛이 달라집니다.
  • 연구에 따르면, 모델의 크기나 데이터 양만큼은 아니지만, 이러한 설계 선택들도 성능에 영향을 미칩니다.

4. 결론: "단순한 크기 경쟁은 끝났다"

이 논문의 핵심 메시지는 다음과 같습니다.

"더 큰 모델을 만들고 더 많은 데이터를 학습시키는 것만으로는 한계가 있습니다. 어떤 데이터를 얼마나 섞어서, 어떤 설계로 학습시키느냐가 훨씬 더 중요합니다."

이 연구는 AI 개발자들에게 **"무작정 크게 만드는 것보다, 레시피를 잘 짜는 것이 더 중요하다"**는 교훈을 줍니다. 마치 거대한 식재고를 가진 요리사보다, 적은 재료로도 최고의 요리를 해내는 명장이 더 존경받는 것과 같습니다.

요약

  • 기존 생각: 모델이 크고 데이터가 많으면 무조건 좋다.
  • 새로운 발견: 데이터의 **비율 (코드 vs 일반 텍스트)**과 **출처 (웹 vs 교과서)**가 성능을 좌우한다.
  • 비유: 거대한 부엌보다 올바른 레시피가 더 중요하다.
  • 효과: 이 새로운 방식을 적용하면 모델의 성능을 훨씬 더 정확하게 예측할 수 있다.

이 연구는 앞으로 AI 를 개발할 때, 단순히 '크기'에 집착하기보다 **'데이터의 질과 구성'**을 신중하게 설계해야 함을 보여줍니다.