Cost-of-Pass: An Economic Framework for Evaluating Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 정말로 돈을 아껴주는 걸까, 아니면 그냥 비싼 장난감일까?"**라는 질문에 답하기 위해 쓴 연구입니다.

저자들은 AI 모델을 평가할 때 단순히 "정답을 얼마나 잘 맞추는가 (성능)"만 보는 것이 아니라, **"정답을 하나 얻는 데 실제로 얼마의 돈이 드는가 (비용)"**를 함께 계산해야 한다고 주장합니다. 이를 **'통과 비용 (Cost-of-Pass)'**이라는 새로운 개념으로 정리했습니다.

이 복잡한 경제학 논리를 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 개념: "정답 한 개 사기 위한 비용"

전통적인 AI 평가는 "이 학생 (AI) 이 시험에서 몇 점을 받았나요?"를 봅니다. 하지만 이 논문은 **"이 학생이 100 점짜리 정답을 하나 만들어내는데, 우리 지갑에서 몇 원이 나갔나요?"**를 묻습니다.

비유: 식당에 가서 음식을 주문할 때, "맛있는 음식 (성능)"만 중요한 게 아니라, "그 맛을 내기 위해 내가 지불한 돈 (비용)"까지 고려해야 진짜 가성비 좋은 식당을 고를 수 있는 것과 같습니다.
통과 비용 (Cost-of-Pass): AI 가 문제를 풀 때, 틀리면 다시 시도해야 하므로 돈이 더 듭니다. "틀린 시도까지 포함해서 정답 하나를 얻는 데 드는 예상 총비용"을 계산하는 것입니다.

2. 세 가지 주요 발견 (경제학자의 눈으로 본 AI)

저자들은 다양한 AI 모델들을 이 '비용' 기준으로 분석했고, 놀라운 사실을 세 가지 발견했습니다.

① "작은 공구"와 "대형 공구"는 용도가 다릅니다

간단한 계산 (2 자리 덧셈 등): 거대한 슈퍼컴퓨터를 쓸 필요 없습니다. **가벼운 모델 (Lightweight Models)**이 가장 저렴하고 빠릅니다. 마치 간단한 못을 박을 때 드릴 대신 작은 망치를 쓰는 것과 같습니다.
지식 질문 (과학, 역사 등): **큰 모델 (Large Models)**이 유리합니다. 방대한 책을 읽어야 하므로 비싼 도서관 (큰 모델) 을 써야 합니다.
어려운 수학/추론 문제: **추론 모델 (Reasoning Models, 예: o1)**이 필요합니다. 이들은 천천히 생각하며 토큰을 많이 쓰지만, 복잡한 문제를 해결할 때 '정답을 얻는 비용'이 가장 낮아집니다. 비싼 고급 공구를 써야만 해결되는 난이도 높은 작업과 같습니다.

② "최저가 선 (Frontier)"은 계속 내려가고 있습니다

비유: 과거에는 고급 레스토랑 (고성능 AI) 만이 요리를 해줄 수 있었습니다. 하지만 시간이 지날수록 가성비 좋은 식당들이 계속 생겨나면서, 같은 맛을 내는 데 드는 비용이 반으로, 반으로 줄어듭니다.
현실: 특히 어려운 수학 문제 같은 경우, 지난 1 년 동안 정답을 얻는 비용이 몇 달마다 절반씩 줄어들고 있다고 합니다. 기술 발전이 정말 빠르게 비용을 낮추고 있다는 뜻입니다.

③ "추가 노력"은 종종 돈을 낭비합니다

비유: 요리사가 요리를 잘 못하면, "다시 한번 해보세요 (Self-refine)"나 "세 명이서 투표해서 결정하세요 (Majority voting)"라고 하면 더 잘할까요?
결과: 대부분의 경우, 모델 자체를 업그레이드하는 것이 훨씬 저렴합니다. 이미 있는 모델을 가지고 "다시 생각해보게 하라"거나 "여러 번 시도하게 하라"는 방법은, 성능은 조금 나아져도 돈은 훨씬 더 많이 들게 만들어 비효율적입니다. (단, 'TALE-EP'라는 특별한 예산 관리 기술은 예외적으로 효과가 있었습니다.)

3. 인간 전문가와의 비교: "인건비 vs AI 비용"

이 연구는 AI 가 인간을 대체할 수 있는지 보기 위해 인간 전문가의 인건비를 기준으로 삼았습니다.

비유: "이 문제를 해결하는 데 전문가를 고용하면 10 달러가 들지만, AI 로 하면 1 달러도 안 듭니다."
결론: 간단한 문제나 지식 질문에서는 이미 AI 가 인간보다 훨씬 저렴해졌습니다. 하지만 아주 어렵고 복잡한 문제에서는 아직 인간 전문가가 더 나을 수도 있습니다. 중요한 건 **"어떤 일을 하느냐에 따라 AI 를 쓸지, 인간을 쓸지, 혹은 어떤 AI 를 쓸지"**를 이 '비용' 기준으로 결정해야 한다는 점입니다.

4. 요약: 우리가 배워야 할 교훈

이 논문의 결론은 매우 명확합니다.

"성능만 쫓지 말고, '비용 대비 효율'을 따져라."

간단한 일: 싼 AI 를 쓰세요.
복잡한 일: 비싼 AI 를 쓰되, 그 비싼 값어치를 할 수 있는지 확인하세요.
추가 기능: "다시 한번 생각하게 하기" 같은 귀찮은 과정은 오히려 돈을 더 쓰게 할 수 있으니 신중하게 사용하세요.

이 프레임워크는 기업이나 개발자들이 **"어떤 AI 를 언제, 어떻게 써야 돈을 가장 잘 아낄 수 있을까?"**를 결정할 때 나침반이 되어줍니다. 마치 쇼핑할 때 "가장 싼 것"이 아니라 "가장 합리적인 가격에 원하는 것을 주는 것"을 고르는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

최근 생성형 AI 와 언어 모델 (LM) 의 발전은 산업 자동화와 경제적 생산성 향상을 이끌고 있습니다. 그러나 이러한 기술의 광범위한 채택은 생성된 경제적 가치와 추론 비용 (Inference Cost) 간의 균형에 달려 있습니다.

기존 평가의 한계: 기존 연구는 주로 정확도 (Accuracy) 나 성능 지표에 집중하여, 비용 요소를 고려하지 않았습니다. 이는 더 높은 정확도를 위해 과도한 비용이 드는 모델을 선택하게 하거나, 비용 효율적인 솔루션을 간과하게 만드는 불완전한 평가 결과를 초래합니다.
핵심 질문: "주어진 작업을 수행하는 데 드는 기대 비용 (Expected Cost) 은 얼마이며, 이는 인간 전문가의 비용과 비교하여 경제적으로 타당한가?"

2. 방법론 (Methodology)

저자들은 경제학의 **생산 효율성 이론 (Farrell, 1957; Aigner et al., 1977)**을 언어 모델 평가에 적용하여 새로운 프레임워크를 제안합니다.

A. 핵심 개념: Cost-of-Pass (통과 비용)

정의: 주어진 문제 $p$ 에 대해 올바른 해답을 하나 얻기 위해 기대되는 화폐 비용을 의미합니다.
수식: $v(m, p) = \frac{C_m(p)}{R_m(p)}$ $v (m, p) = \frac{C _{m} ( p )}{R _{m} ( p )}$
- $C_m(p)$ : 모델 $m$ 이 한 번 추론을 시도할 때 드는 기대 비용 (토큰 수 $\times$ 토큰 단가).
- $R_m(p)$ : 모델이 문제를 올바르게 해결할 확률 (성공률).
- 모델이 확률적으로 출력을 생성하므로, 성공할 때까지 필요한 시도 횟수는 $1/R_m(p)$ 이며, 이에 따른 총 기대 비용이 'Cost-of-Pass'가 됩니다.

B. 프론티어 Cost-of-Pass (Frontier Cost-of-Pass)

정의: 사용 가능한 모든 언어 모델 (LM) 과 **인간 전문가 (Human Expert)**를 포함한 옵션 중, 주어진 문제를 해결하는 데 드는 최소 Cost-of-Pass입니다.
인간 전문가 기준선: 해당 작업을 수행할 수 있는 인간 전문가의 노동 비용 (시급 $\times$ 소요 시간) 을 $v(\text{expert}, p)$ 로 정의하여, LM 이 인간보다 경제적인지 비교합니다.
프론티어: $V_p(M \cup M_0) = \min(V_p(M), v(\text{expert}, p))$ $V_{p} (M \cup M_{0}) = min (V_{p} (M), v (expert, p))$
- 이는 특정 문제 $p$ 를 해결할 수 있는 최상의 옵션 (모델 또는 인간) 의 비용을 나타냅니다.

C. 진전 추적 및 반사실적 분석 (Counterfactual Analysis)

시간에 따른 진전: 새로운 모델이 출시될 때마다 프론티어 비용이 어떻게 감소하는지 추적하여 기술 발전의 경제적 영향을 측정합니다.
모델 가족의 필수성 (Essentialness): 특정 모델 가족 (예: 경량 모델, 대형 모델, 추론 모델) 을 제외했을 때 프론티어 비용이 얼마나 증가하는지를 계산하여, 각 모델 유형이 현재 비용 효율성 달성에 기여하는 정도를 정량화합니다.

3. 주요 기여 (Key Contributions)

경제적 평가 프레임워크 도입: 정확도와 비용을 통합한 단일 지표인 'Cost-of-Pass'와 이를 인간 전문가 비용과 비교하는 '프론티어' 개념을 정립했습니다.
모델 가족별 경제적 니치 발견: 단순히 성능만으로는 알 수 없던, 작업 유형별 최적의 모델 유형을 규명했습니다.
추론 시간 기법 (Inference-time Techniques) 의 경제성 분석: 성능 향상을 위한 다양한 기법 (Self-refinement, Majority Voting 등) 이 실제로 비용 절감 효과를 가져오는지 검증했습니다.
진행 상황의 정량화: 지난 1 년간 복잡한 수학 문제 해결 비용이 급격히 하락했음을 실증적으로 보였습니다.

4. 실험 결과 (Results)

연구진은 2024 년 5 월부터 2025 년 2 월까지 출시된 다양한 모델 (Llama, GPT, Claude, DeepSeek 등) 을 3 가지 작업 카테고리 (기본 정량, 지식 기반, 복잡한 정량) 에 대해 평가했습니다.

A. 모델 유형별 최적화 영역

기본 정량 작업 (Basic Quantitative): **경량 모델 (Lightweight Models, 예: Llama-3.1-8B, GPT-4o mini)**이 가장 비용 효율적입니다. 모든 모델이 높은 정확도를 보이므로, 단가가 낮은 모델이 우위를 점합니다.
지식 기반 작업 (Knowledge-based): **대형 모델 (Large Models, 예: GPT-4o, Claude Sonnet-3.5)**이 가장 효율적입니다. 복잡한 사실적 지식 처리에 대한 성능 우위가 높은 비용을 상쇄합니다.
복잡한 정량 작업 (Complex Quantitative): **추론 모델 (Reasoning Models, 예: OpenAI o1, DeepSeek-R1)**이 압도적으로 효율적입니다. 높은 토큰 비용에도 불구하고, 복잡한 문제 해결 능력으로 실패 확률을 낮춰 전체 기대 비용을 최소화합니다.

B. 비용 감소 추세

지수적 비용 하락: 복잡한 정량 작업 (MATH-500, AIME-2024) 에서 프론티어 Cost-of-Pass 는 지난 1 년간 약 2.6~7.1 개월마다 절반으로 감소하는 지수적 추세를 보였습니다.
주요 동인: 이러한 비용 감소는 주로 경량 모델과 추론 모델의 혁신에 의해 주도되었습니다.

C. 추론 시간 기법의 한계

Self-refinement 및 Majority Voting: 정확도를 높이기 위한 일반적인 기법들은 추가적인 추론 비용 (토큰 소비) 을 발생시켜, 순 경제적 이익 (Net Economic Benefit) 을 거의 제공하지 못하거나 오히려 비용을 증가시키는 경우가 많았습니다.
TALE-EP: 예산을 고려한 기법 (Token-budget-aware) 은 일부 작업에서 비용 절감 효과를 보였으나, 전반적으로는 모델 자체의 성능 향상이 비용 효율성 개선의 주된 동인임을 확인했습니다.

D. 반사실적 분석 (Counterfactual Frontier)

경량 모델: 기본 정량 작업의 프론티어 유지에 필수적.
대형 모델: 지식 기반 작업 (GPQA-Diamond 등) 의 프론티어 유지에 필수적.
추론 모델: 복잡한 정량 작업 (AIME, MATH) 의 프론티어 유지에 필수적.

5. 의의 및 결론 (Significance)

실용적 의사결정 도구: 개발자와 기업은 단순히 "어떤 모델이 가장 똑똑한가?"가 아닌, "어떤 모델이 주어진 예산과 작업 유형에서 가장 경제적인가?"를 판단할 수 있는 원칙적인 도구를 얻게 되었습니다.
혁신 방향성 제시: 비용 효율성 향상의 핵심은 추론 시간 기법 (Test-time compute) 이 아닌, **모델 아키텍처 및 학습 방식의 혁신 (Model-level innovations)**에 있음을 시사합니다.
인간 - AI 경제성 비교: LM 이 인간 전문가를 대체할 수 있는 경제적 임계점을 명확히 측정할 수 있게 하여, AI 의 실제 산업 적용 가능성을 평가하는 기준을 마련했습니다.

이 논문은 AI 모델 평가에 '비용'이라는 경제적 차원을 체계적으로 통합함으로써, 기술 발전의 속도와 방향을 더 현실적이고 실용적인 관점에서 해석할 수 있는 새로운 패러다임을 제시합니다.