Evaluation of Large Language Models via Coupled Token Generation

이 논문은 대규모 언어 모델의 평가 시 무작위성을 통제하는 '결합 토큰 생성' 기법을 제안하여, 기존 벤치마크에서는 샘플 효율성을 높이고 인간 쌍별 비교에서는 무작위성으로 인한 편향을 제거해 모델 순위의 신뢰성을 확보할 수 있음을 이론적 및 실험적으로 입증했습니다.

Nina Corvelo Benz, Stratis Tsirtsis, Eleni Straitouri, Ivi Chatzi, Ander Artola Velasco, Suhas Thejaswi, Manuel Gomez-Rodriguez

게시일 2026-03-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎲 1. 문제: "주사위를 굴리는 게임"의 함정

지금까지 우리는 AI 모델을 평가할 때, 마치 주사위를 굴리는 게임을 시켰습니다.

  • 상황: 두 명의 AI(A 와 B) 에게 같은 문제를 냅니다.
  • 기존 방식: A 는 주사위를 굴려 답을 내고, B 는 새로운 주사위를 굴려 답을 냅니다.
  • 문제점: 만약 A 가 운이 좋아서 좋은 답을 냈다면, 그건 A 가 진짜로 더 똑똑해서가 아니라 운이 좋았기 때문일 수 있습니다. 반대로 B 는 운이 나빠서 나쁜 답을 냈을 수도 있죠.
  • 결과: 우리는 AI 의 '실력'을 평가하려 했지만, 실제로는 **'운 (랜덤성)'**을 평가하고 있었던 셈입니다. 그래서 더 정확한 평가를 위해 수천 번, 수만 번의 테스트를 반복해야만 했습니다.

🔗 2. 해결책: "동일한 운 (Coupled Generation)"을 공유하라

이 논문은 **"두 AI 가 같은 주사위를 굴리게 하자"**고 제안합니다. 이를 **'결합된 생성 (Coupled Autoregressive Generation)'**이라고 부릅니다.

  • 비유: 두 명의 요리사 (AI) 가 같은 재료를 가지고 같은 레시피를 따르는데, 마지막에 '맛을 결정하는 소금 한 알'을 동시에 넣는 상황을 상상해 보세요.
  • 방법: 두 AI 가 문제를 풀 때, 내부적으로 사용하는 무작위 숫자 (소금) 를 완전히 동일하게 공유합니다.
  • 효과:
    • 만약 두 AI 가 똑같은 소금을 넣었는데도 A 가 더 맛있는 요리를 냈다면? 그건 100% A 의 실력 때문입니다. 운의 변수를 완전히 제거했기 때문이죠.
    • 만약 두 AI 가 같은 소금을 넣었는데도 답이 달랐다면? 그건 모델의 구조나 학습 데이터의 차이 때문입니다.

📉 3. 장점: "시간과 비용의 대폭 절감"

이 방법을 쓰면 어떤 이득이 있을까요?

  1. 더 적은 노력으로 더 빠른 결론:
    • 기존 방식 (독립적인 주사위): 실력을 판단하려면 수천 번을 테스트해야 "A 가 B 보다 낫다"고 확신할 수 있었습니다.
    • 새로운 방식 (공유된 주사위): 75% 적은 테스트 횟수로도 같은 결론을 내릴 수 있습니다. 마치 두 선수가 같은 바람, 같은 경기장에서 뛰게 해서 실력만 비교하는 것과 같습니다.
  2. 더 공정한 순위:
    • 기존 방식에서는 운이 좋은 모델이 상위권을 차지할 수 있었습니다. 하지만 새로운 방식은 진짜 실력이 높은 모델이 자연스럽게 위로 올라갑니다.
    • 논문 실험 결과, 기존 방식에서는 1 등이라고 생각했던 모델이, 새로운 방식으로 평가하면 3 등이나 4 등인 경우가 발견되기도 했습니다.

🏆 4. 실제 실험 결과

연구진은 Llama, Mistral, Qwen 등 유명한 AI 모델들을 가지고 실험했습니다.

  • 수학 문제 (GSM8K), 코딩 문제 (HumanEval), 일반 상식 (MMLU) 등 다양한 테스트에서, 결합된 생성 방식을 사용했을 때 필요한 샘플 수가 크게 줄어든 것을 확인했습니다.
  • 특히, 서로 매우 비슷한 모델들 (예: 같은 모델의 양자화 버전) 을 비교할 때 이 방법의 효과가 가장 컸습니다.

💡 요약: 왜 이 논문이 중요한가요?

지금까지 AI 평가는 **"운의 요소"**가 너무 많이 섞여 있었습니다. 이 논문은 **"운을 통제하고, 오직 실력만 비교하자"**는 새로운 기준을 제시합니다.

  • 기존: "운이 좋으면 1 등, 운이 나쁘면 꼴등" (많은 테스트 필요)
  • 새로운: "같은 조건에서 실력만 겨루기" (적은 테스트로 정확한 순위 도출)

이 방법은 AI 개발자들이 더 적은 비용과 시간으로 더 정확한 모델 평가를 할 수 있게 해주며, 우리가 믿고 사용하는 AI 의 진짜 실력을 가려내는 데 큰 도움이 될 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →