What Scales in Cross-Entropy Scaling Law?

이 논문은 교차 엔트로피 스케일링 법칙이 대규모에서 무너지는 원인을 규명하기 위해 교차 엔트로피를 세 가지 구성 요소로 분해한 결과, 실제로는 '오류 엔트로피 (Error-Entropy)'만이 강력한 멱법칙을 따르며 모델 크기가 커질수록 그 비중이 감소한다는 사실을 발견하여 더 정확한 모델 행동 설명을 제시했습니다.

Junxi Yan, Zixi Wei, Qingyao Ai, Yiqun Liu, Jingtao Zhan

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 인공지능 (LLM) 개발의 핵심 원리였던 '확장 법칙 (Scaling Law)'에 대한 의문을 제기하고, 그 해답을 제시하는 매우 흥미로운 연구입니다.

한마디로 요약하면: "지금까지 우리가 믿어왔던 '모델이 커질수록 성능이 일정하게 좋아진다'는 법칙은 사실 거짓말일 수 있습니다. 진짜로 잘 작동하는 것은 그 안에 숨겨진 한 가지 요소뿐입니다."

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🍔 햄버거의 비밀: 겉모습과 속사정

과거 연구자들은 거대 언어 모델 (LLM) 을 개발할 때 **'엔트로피 (Cross-Entropy)'**라는 지표를 가장 중요하게 여겼습니다. 이는 마치 햄버거를 평가할 때 **'총 칼로리'**를 재는 것과 비슷합니다.

  • 기존 믿음: 햄버거 (모델) 가 커질수록 (파티를 늘릴수록) 칼로리 (오차) 는 일정하게 줄어듭니다. 그래서 우리는 "모델을 더 크게 만들면 무조건 더 똑똑해진다"고 믿었습니다.
  • 문제점: 하지만 최근 거대 모델들을 키우니, 예상보다 성능이 잘 안 올라가는 '체력 저하' 현상이 나타났습니다. 마치 햄버거를 계속 키우는데 칼로리 감소 속도가 느려지는 것과 같습니다.

🔍 연구진들의 발견: 햄버거를 분해하다

이 논문은 "아마도 우리가 재고 있는 '총 칼로리'가 아니라, 그 안에 들어있는 특정 재료 하나만 실제로 효과가 있는 게 아닐까?"라고 의심했습니다.

연구진은 햄버거 (오차) 를 세 가지 재료로 쪼개어 보았습니다.

  1. 실수 엔트로피 (Error-Entropy) = "진짜 실수 찾기"

    • 비유: 햄버거를 먹다가 **진짜로 맛없는 고기 (틀린 단어)**를 찾아내는 능력입니다.
    • 특징: 모델이 커질수록 이 능력은 놀랍도록 일정하게 좋아집니다. 마치 요리사가 커질수록 맛없는 재료를 찾아내는 실력이 계속 늘어난 것처럼요. 이것이 진짜로 확장 (Scale) 되는 핵심입니다.
  2. 자기 정렬 (Self-Alignment) = "점원과의 눈맞춤"

    • 비유: 요리사가 "이 고기는 80% 확률로 맛없을 거야"라고 말했을 때, 손님이 그 말을 얼마나 믿고 따르는지 (확률 점수) 를 맞추는 것입니다.
    • 특징: 모델이 커져도 이 부분은 크게 변하지 않습니다. 그냥 점원과 손님이 서로 눈만 맞추는 수준일 뿐, 실력 향상과는 직접적인 연관이 적습니다.
  3. 자신감 (Confidence) = "과장된 자신감"

    • 비유: 요리사가 "이 고기는 100% 맛없어!"라고 엄청 큰 목소리로 외치는 것입니다.
    • 특징: 모델이 커질수록 목소리 (자신감) 는 더 커지지만, 그게 실제 고기 (정답) 를 찾는 능력과는 별개입니다. 오히려 모델이 커질수록 이 '과장된 자신감'이占总 (전체) 에서 차지하는 비중이 커져서, 진짜 실력 (실수 찾기) 을 가려버립니다.

📉 왜 큰 모델은 둔해졌을까? (핵심 통찰)

이제 모든 것이 설명됩니다.

  • 작은 모델일 때: 햄버거에서 '맛없는 고기 찾기 (실수 엔트로피)'가 90% 를 차지합니다. 그래서 모델이 커질수록 전체 성능이 쑥쑥 좋아 보이는 것처럼 보입니다.
  • 거대 모델일 때: '맛없는 고기 찾기' 능력은 여전히 좋아지지만, 햄버거 전체에서 차지하는 비중이 줄어듭니다. 대신 '과장된 자신감 (Confidence)' 같은 쓸모없는 요소들이 햄버거를 채워 넣습니다.
  • 결과: 전체 지표 (햄버거 총 칼로리) 를 보면 성능이 잘 안 올라가는 것처럼 보이지만, 사실은 진짜 실력 (실수 엔트로피) 은 여전히 잘 작동하고 있었던 것입니다. 다만, 쓸모없는 요소들이 그 성장을 가려버린 것이죠.

💡 이 연구가 우리에게 주는 교훈

  1. 진짜 척도는 '순위'입니다: 모델이 정답을 얼마나 높은 점수로 예측했는지 (확률) 보다, 정답을 몇 번째 순위로 예측했는지가 더 중요합니다. (예: 정답이 1 등인지 10 등인지)
  2. 새로운 개발 방향: 앞으로는 모델의 '자신감'을 키우는 것보다, **실수를 줄이는 능력 (실수 엔트로피)**에 집중해야 합니다.
  3. 미래의 전망: 이 새로운 법칙 ('실수 엔트로피 확장 법칙') 을 따르면, 더 큰 모델을 만들 때 왜 성능이 정체되는지 알 수 있고, 더 효율적인 학습 방법을 찾을 수 있습니다.

🎯 한 줄 요약

"거대 모델의 성능 정체는 모델이 멍청해진 게 아니라, 우리가 '과장된 자신감'이라는 잡음에 가려진 '진짜 실력'을 놓치고 있었기 때문입니다. 이제 우리는 그 진짜 실력 (실수 엔트로피) 에 집중해서 더 똑똑한 AI 를 만들 수 있습니다."