Cost-of-Pass: An Economic Framework for Evaluating Language Models

이 논문은 정확도와 추론 비용을 결합한 '패스 비용 (cost-of-pass)'이라는 새로운 경제학적 프레임워크를 제시하여, 다양한 언어 모델의 생산성을 평가하고 혁신과 추론 기법이 비용 효율성에 미치는 영향을 분석합니다.

Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 정말로 돈을 아껴주는 걸까, 아니면 그냥 비싼 장난감일까?"**라는 질문에 답하기 위해 쓴 연구입니다.

저자들은 AI 모델을 평가할 때 단순히 "정답을 얼마나 잘 맞추는가 (성능)"만 보는 것이 아니라, **"정답을 하나 얻는 데 실제로 얼마의 돈이 드는가 (비용)"**를 함께 계산해야 한다고 주장합니다. 이를 **'통과 비용 (Cost-of-Pass)'**이라는 새로운 개념으로 정리했습니다.

이 복잡한 경제학 논리를 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 개념: "정답 한 개 사기 위한 비용"

전통적인 AI 평가는 "이 학생 (AI) 이 시험에서 몇 점을 받았나요?"를 봅니다. 하지만 이 논문은 **"이 학생이 100 점짜리 정답을 하나 만들어내는데, 우리 지갑에서 몇 원이 나갔나요?"**를 묻습니다.

  • 비유: 식당에 가서 음식을 주문할 때, "맛있는 음식 (성능)"만 중요한 게 아니라, "그 맛을 내기 위해 내가 지불한 돈 (비용)"까지 고려해야 진짜 가성비 좋은 식당을 고를 수 있는 것과 같습니다.
  • 통과 비용 (Cost-of-Pass): AI 가 문제를 풀 때, 틀리면 다시 시도해야 하므로 돈이 더 듭니다. "틀린 시도까지 포함해서 정답 하나를 얻는 데 드는 예상 총비용"을 계산하는 것입니다.

2. 세 가지 주요 발견 (경제학자의 눈으로 본 AI)

저자들은 다양한 AI 모델들을 이 '비용' 기준으로 분석했고, 놀라운 사실을 세 가지 발견했습니다.

① "작은 공구"와 "대형 공구"는 용도가 다릅니다

  • 간단한 계산 (2 자리 덧셈 등): 거대한 슈퍼컴퓨터를 쓸 필요 없습니다. **가벼운 모델 (Lightweight Models)**이 가장 저렴하고 빠릅니다. 마치 간단한 못을 박을 때 드릴 대신 작은 망치를 쓰는 것과 같습니다.
  • 지식 질문 (과학, 역사 등): **큰 모델 (Large Models)**이 유리합니다. 방대한 책을 읽어야 하므로 비싼 도서관 (큰 모델) 을 써야 합니다.
  • 어려운 수학/추론 문제: **추론 모델 (Reasoning Models, 예: o1)**이 필요합니다. 이들은 천천히 생각하며 토큰을 많이 쓰지만, 복잡한 문제를 해결할 때 '정답을 얻는 비용'이 가장 낮아집니다. 비싼 고급 공구를 써야만 해결되는 난이도 높은 작업과 같습니다.

② "최저가 선 (Frontier)"은 계속 내려가고 있습니다

  • 비유: 과거에는 고급 레스토랑 (고성능 AI) 만이 요리를 해줄 수 있었습니다. 하지만 시간이 지날수록 가성비 좋은 식당들이 계속 생겨나면서, 같은 맛을 내는 데 드는 비용이 반으로, 반으로 줄어듭니다.
  • 현실: 특히 어려운 수학 문제 같은 경우, 지난 1 년 동안 정답을 얻는 비용이 몇 달마다 절반씩 줄어들고 있다고 합니다. 기술 발전이 정말 빠르게 비용을 낮추고 있다는 뜻입니다.

③ "추가 노력"은 종종 돈을 낭비합니다

  • 비유: 요리사가 요리를 잘 못하면, "다시 한번 해보세요 (Self-refine)"나 "세 명이서 투표해서 결정하세요 (Majority voting)"라고 하면 더 잘할까요?
  • 결과: 대부분의 경우, 모델 자체를 업그레이드하는 것이 훨씬 저렴합니다. 이미 있는 모델을 가지고 "다시 생각해보게 하라"거나 "여러 번 시도하게 하라"는 방법은, 성능은 조금 나아져도 돈은 훨씬 더 많이 들게 만들어 비효율적입니다. (단, 'TALE-EP'라는 특별한 예산 관리 기술은 예외적으로 효과가 있었습니다.)

3. 인간 전문가와의 비교: "인건비 vs AI 비용"

이 연구는 AI 가 인간을 대체할 수 있는지 보기 위해 인간 전문가의 인건비를 기준으로 삼았습니다.

  • 비유: "이 문제를 해결하는 데 전문가를 고용하면 10 달러가 들지만, AI 로 하면 1 달러도 안 듭니다."
  • 결론: 간단한 문제나 지식 질문에서는 이미 AI 가 인간보다 훨씬 저렴해졌습니다. 하지만 아주 어렵고 복잡한 문제에서는 아직 인간 전문가가 더 나을 수도 있습니다. 중요한 건 **"어떤 일을 하느냐에 따라 AI 를 쓸지, 인간을 쓸지, 혹은 어떤 AI 를 쓸지"**를 이 '비용' 기준으로 결정해야 한다는 점입니다.

4. 요약: 우리가 배워야 할 교훈

이 논문의 결론은 매우 명확합니다.

"성능만 쫓지 말고, '비용 대비 효율'을 따져라."

  • 간단한 일: 싼 AI 를 쓰세요.
  • 복잡한 일: 비싼 AI 를 쓰되, 그 비싼 값어치를 할 수 있는지 확인하세요.
  • 추가 기능: "다시 한번 생각하게 하기" 같은 귀찮은 과정은 오히려 돈을 더 쓰게 할 수 있으니 신중하게 사용하세요.

이 프레임워크는 기업이나 개발자들이 **"어떤 AI 를 언제, 어떻게 써야 돈을 가장 잘 아낄 수 있을까?"**를 결정할 때 나침반이 되어줍니다. 마치 쇼핑할 때 "가장 싼 것"이 아니라 "가장 합리적인 가격에 원하는 것을 주는 것"을 고르는 것과 같습니다.