Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

이 논문은 토크나이저 효율성을 고려한 새로운 효율성 지표인 '정보 용량 (Information Capacity)'을 제안하고, 이를 통해 다양한 크기와 아키텍처의 오픈소스 대규모 언어 모델들의 추론 효율성을 평가하고 성능 예측 및 언어 편향을 분석했습니다.

Cheng Yuan, Jiawei Shao, Xuelong Li

게시일 2026-03-11
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 거대 언어 모델 (LLM) 의 '효율성'을 재정의하다: 정보 용량 (Information Capacity)

이 논문은 최근 AI 가 너무 똑똑해지면서 생기는 **'비싼 계산 비용'**과 '실제 지능' 사이의 균형을 어떻게 측정할지 고민한 연구입니다.

기존에는 "모델이 얼마나 큰가 (파라미터 수)"만 보고 성능을 판단했지만, 이 논문은 **"이 모델이 얼마나 '똑똑하게' 데이터를 압축하는가?"**를 기준으로 효율성을 평가하는 새로운 척도, **'정보 용량 (Information Capacity)'**을 제안합니다.


🧩 핵심 개념: "지능은 곧 압축이다"

이 논문의 가장 재미있는 전제는 **"지능 = 압축 능력"**이라는 것입니다.

🍕 피자 비유:
imagine 당신이 친구들에게 피자를 배달해 주려고 합니다.

  • 비효율적인 AI: 피자를 잘게 잘라 100 개의 작은 조각으로 나누어 100 개의 상자에 담아 배달합니다. (데이터가 너무 큽니다. 비용이 많이 듭니다.)
  • 효율적인 AI: 피자를 그대로 1 개의 큰 상자에 담아 배달합니다. (데이터가 작습니다. 비용이 적게 듭니다.)

똑같은 피자를 배달하는데, 적은 상자 (데이터) 로 배달할수록 그 AI 는 더 똑똑한 것입니다. 왜냐하면 "어떤 것이 중요한지, 무엇을 생략해도 되는지"를 잘 이해하고 있기 때문입니다.

이 논문은 AI 가 텍스트를 얼마나 잘 예측하고 압축하는지, 그리고 그 과정에서 컴퓨터가 얼마나 많은 전력을 썼는지를 비교하여 **'효율성 점수'**를 매깁니다.


🔍 이 연구가 발견한 3 가지 놀라운 사실

1. 🗣️ "말하는 방식 (토크나이저) 이 가장 중요합니다"

AI 가 글을 읽을 때, 글자를 어떻게 쪼개서 읽느냐가 중요합니다.

  • 비유: 같은 영어 문장이라도, 한 글자씩 끊어 읽는 사람과 한 단어를 통째로 읽는 사람이 있습니다.
  • 발견: 연구 결과, 토크나이저 (글자 쪼개기 도구) 가 효율적인 모델이 훨씬 더 높은 점수를 받았습니다. 마치 "한 번에 10 마디를 말해서 10 번의 일을 한 번에 끝내는 사람"처럼, 적은 노력으로 더 많은 정보를 처리하는 모델이 더 똑똑하다는 뜻입니다.

2. 🌍 "언어 편향 (Bias) 이 심합니다"

모든 AI 가 모든 언어를 똑같이 잘하는 것은 아닙니다.

  • 비유: 중국어에 특화된 AI 는 중국어 책을 압축할 때 천재처럼 작동하지만, 영어 책을 압축할 때는 평범한 학생 수준이 될 수 있습니다.
  • 발견: 서양권 AI(예: Llama, Gemma) 는 중국어 데이터에서 효율성이 떨어졌고, 중국 AI(예: Qwen, Hunyuan) 는 영어나 코드 데이터에서 더 뛰어났습니다. 즉, 학습한 데이터의 언어와 종류에 따라 AI 의 '지능'이 달라진다는 것을 증명했습니다.

3. 🏗️ "MoE(전문가 혼합) 아키텍처의 승리"

최근 AI 는 모든 부품을 다 켜지 않고, 필요한 부분만 켜는 '전문가 시스템 (MoE)'을 사용합니다.

  • 비유: 100 명짜리 팀이 있는데, 매번 100 명 모두를 소집하는 대신 문제에 맞는 10 명만 뽑아서 해결하는 방식입니다.
  • 발견: 같은 크기의 컴퓨터 자원 (전력) 을 써도, MoE 방식을 쓴 모델이 더 많은 정보를 압축해냈습니다. 즉, 더 적은 비용으로 더 큰 지능을 발휘하는 것입니다.

🚀 이 연구가 우리에게 주는 메시지

1. "크기만 큰 게 답이 아니다"

기존에는 "모델이 클수록 무조건 좋다"라고 생각했습니다. 하지만 이 연구는 **"같은 크기의 모델이라도, 어떻게 설계하느냐에 따라 효율이 10 배 이상 차이 날 수 있다"**고 말합니다.

2. "미래의 AI 개발을 가속화한다"

이론상, 이 '정보 용량' 점수를 알면 아직 훈련되지 않은 거대 모델의 성능을 작은 모델로 미리 예측할 수 있습니다.

  • 비유: 작은 시제품 차를 타고 달린 결과만 봐도, 그 차를 10 배 크게 만들었을 때의 연비와 속도를 정확히 예측할 수 있다면, 거대한 실험실과 돈을 아낄 수 있습니다.

3. "환경과 비용을 아끼는 길"

AI 가 너무 많은 전기를 먹고 있습니다. 이 새로운 척도는 **"어떤 AI 가 가장 적은 전기로 가장 똑똑한 일을 하는가?"**를 알려주므로, 친환경적이고 경제적인 AI 개발을 위한 나침반이 될 것입니다.


💡 한 줄 요약

"이제부터 AI 의 진짜 실력은 '얼마나 큰가'가 아니라, '얼마나 적은 자원으로 많은 일을 해내는가 (압축 효율)'로 판단하자!"

이 연구는 AI 가 더 똑똑해지면서 생기는 에너지 위기를 해결하고, 더 효율적인 AI 를 만드는 새로운 기준을 제시했습니다.