Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇) 을 어떻게 가장 효과적으로 팔아야 할까?"**라는 질문에 대한 경제학적 해답을 제시합니다.

마치 **"AI 가 제공하는 계산 능력 (토큰) 을 어떻게 가격 책정하고 메뉴를 구성해야 돈을 가장 많이 벌면서도 고객도 만족시킬까?"**를 고민하는 연구입니다.

이 복잡한 수학적 논문을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 문제: "모든 고객의 사용법이 다 다른데, 어떻게 가격을 매길까?"

생각해 보세요. 어떤 고객이 AI 를 쓰는지 알 수 없습니다.

고객 A는 짧은 질문만 하고 끝내지만, 아주 중요한 법적 문서 작성에 씁니다. (가치 높음, 사용량 적음)
고객 B는 아주 간단한 질문을 수천 번 합니다. (가치 낮음, 사용량 많음)
고객 C는 복잡한 코딩 작업을 위해 긴 대화를 나눕니다.

판매자 (OpenAI, Anthropic 등) 는 "누가 무엇을 얼마나 쓸지" 모릅니다. 하지만 고객이 토큰 (문자 단위) 을 얼마나 쓸지는 측정할 수 있습니다.

이 논문은 **"고객의 복잡한 사용 패턴을 하나의 숫자 (지수) 로 요약할 수 있다"**는 놀라운 사실을 발견했습니다. 마치 여러 가지 재료를 섞어 만든 요리처럼, 고객이 어떤 일을 하든 결국 **"얼마나 많은 '요리 재료' (토큰) 를 썼는지"**만 보면 그 고객의 가치를 알 수 있다는 것입니다.

2. 해결책: "요리 재료 키트 (Budget) 판매"

이제 판매자는 복잡한 고객 유형을 일일이 분석할 필요가 없습니다. 대신 **"토큰 예산 (Budget)"**을 파는 메뉴를 만들면 됩니다.

비유: "스마트폰 데이터 요금제"

우리가 스마트폰을 쓸 때, "오늘 뉴스는 10MB, 유튜브는 500MB"라고 따로 계약하지 않죠. 대신 **"월 10GB 데이터"**라는 예산을 사고, 그 안에서 원하는 대로 씁니다.

이 논문이 제안하는 최적의 가격 정책도 비슷합니다:

예산 (Budget) 을 팝니다: 고객이 "이번 달에 토큰 100 만 개 쓸 수 있는 권한"을 구매합니다.
단가는 정해져 있습니다: 토큰 한 개당 가격은 고정되어 있습니다 (예: 입력 토큰 10 원, 출력 토큰 20 원).
고객이 자유롭게 배분합니다: 고객은 이 예산 안에서 "법률 문서 작성에 80% 를 쓰고, 간단한 채팅에 20% 를 쓰는가"를 스스로 결정합니다.

왜 이것이 최선일까요?

저가 고객: 예산이 적고, 토큰 단가가 비싸게 책정된 요금제를 선택합니다.
고가 고객: 예산이 많고, 토큰 단가가 상대적으로 저렴해지는 (할인받는) 요금제를 선택합니다.
결과: 판매자는 고객의 숨겨진 가치를 정확히 캐내어 (가격 차별화) 수익을 극대화하면서도, 고객은 자신이 원하는 대로 AI 를 자유롭게 쓸 수 있습니다.

3. 현실의 사례: "Anthropic vs OpenAI"

이론이 실제로 어떻게 적용되는지 논문은 두 회사의 예를 들어 설명합니다.

Anthropic (클로드):
- 전략: "모델은 똑같은데, **사용량 (예산)**만 다르게 주세요."
- 비유: 같은 식당에서 메뉴는 똑같지만, "소량 세트", "중량 세트", "대량 세트"만 다르게 파는 것과 같습니다.
- 이론적 의미: 이 논문 4 장의 '단일 모델' 이론과 정확히 일치합니다.
OpenAI (챗 GPT):
- 전략: "비싼 요금제를 쓰면 더 똑똑한 모델을 쓸 수 있어요."
- 비유: 일반 좌석은 기본 메뉴만 나오고, VIP 좌석은 '특급 요리'를 내주는 것과 같습니다.
- 이론적 의미: 이 논문 5 장의 '다중 모델' 이론과 일치합니다. 더 똑똑한 모델은 '고급 요리 재료'이므로, 더 많은 돈을 쓰는 고객에게만 제공해야 합니다.

4. 경쟁의 힘: "무료 버전 (오픈소스) 이 있을 때"

만약 시장에 **무료로 토큰을 주는 경쟁자 (오픈소스 모델)**가 있다면 어떨까요?

가벼운 사용자: 무료 경쟁자를 이용합니다. (판매자는 이들을 잡을 수 없음)
중간 사용자: 판매자는 "무료로 쓸까, 아니면 우리 돈을 내고 쓸까?" 고민하게 됩니다. 그래서 판매자는 중간 고객에게 딱 필요한 만큼의 예산을 주어, 경쟁자를 쓰지 못하게 막습니다. (이론적 용어: '방어적 공급')
무거운 사용자: 아예 경쟁자를 무시하고 비싼 유료 모델을 씁니다.

이처럼 경쟁은 판매자가 **누구를 대상으로 팔지 (확장적 한계)**와 **얼마나 많이 팔지 (집약적 한계)**를 모두 바꾸게 만든다는 것을 보여줍니다.

5. 결론: "왜 API 는 토큰당 단가만 받을까?"

개발자들이 쓰는 API(프로그램 연결용) 는 왜 복잡한 요금제가 아니라 "사용한 만큼만 내는 (Pay-per-token)" 방식일까요?

이유: 개발자 시장은 아직 성장 단계입니다. 판매자들은 지금 당장 이윤을 다 챙기기보다, **더 많은 개발자가 우리 기술을 쓰게 만드는 것 (시장 점유율)**이 더 중요합니다.
비유: 새로운 카페가 오픈할 때, "한 잔 사면 다음 건 50% 할인" 같은 복잡한 쿠폰을 주기보다, "모든 커피를 시중가보다 조금 저렴하게" 팔며 손님을 모으는 것과 같습니다.

요약: 이 논문이 우리에게 알려주는 것

복잡한 고객을 단순화하라: 고객의 복잡한 사용 패턴을 '총 사용량 (예산)' 하나로 요약하면 가격 책정이 쉬워집니다.
예산 (Budget) 을 팔아라: 토큰 개수를 따로따로 팔지 말고, "월 100 만 토큰 사용권"처럼 예산 단위로 파는 것이 가장 효율적입니다.
현실은 이론을 따른다: 우리가 매일 보는 AI 요금제 (OpenAI, Anthropic, Poe 등) 는 이 복잡한 수학적 이론이 현실에서 완벽하게 작동하고 있다는 증거입니다.

결국 이 논문은 **"AI 를 팔 때는 복잡한 규칙을 만들지 말고, 고객이 자유롭게 쓸 수 있는 '예산'을 제공하고, 그 안에서 자연스럽게 가격을 차별화하라"**는 현명한 조언을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 대규모 언어 모델 (LLM) 의 메뉴 가격 책정 (Menu Pricing of Large Language Models)

저자: Dirk Bergemann, Alessandro Bonatti, Alex Smolin
날짜: 2026 년 3 월 10 일

1. 연구 배경 및 문제 제기

대규모 언어 모델 (LLM) 은 경제 활동의 핵심 투입 요소로 자리 잡았으나, 현재 주요 공급자 (Anthropic, OpenAI 등) 의 가격 책정 방식은 이론적 근거가 부족한 임의적 (ad hoc) 인 구조를 띠고 있습니다. 구독 계층, 토큰 기반 미터링, 신용 시스템, 볼륨 약정 등이 혼재되어 있습니다.

이 논문이 해결하려는 핵심 문제는 LLM 접근 권한에 대한 최적 가격 책정 및 제품 설계입니다. 이는 본질적으로 다음과 같은 복잡성을 가진 다차원 스크리닝 (multidimensional screening) 문제입니다.

무한 차원의 사적 정보: 사용자는 다양한 작업 (tasks) 에 대해 연속적인 가치 평가를 가지며, 이는 무한 차원의 유형 (type) 을 형성합니다.
고차원 할당 공간: 사용자는 입력, 출력, 파인튜닝 (fine-tuning) 토큰 등 여러 클래스의 토큰을 다양한 작업에 자유롭게 할당합니다.
도덕적 해이 (Moral Hazard): 공급자는 총 토큰 사용량은 측정할 수 있지만, 사용자가 각 작업에 토큰을 어떻게 할당했는지는 관찰하거나 계약할 수 없습니다.

이러한 복잡성으로 인해 기존 이론에서는 문제가 해결 불가능 (intractable) 해 보였으나, 본 논문은 이를 해결 가능한 체계로 변환합니다.

2. 방법론 및 핵심 가정

논문의 핵심 기여는 생산 기술의 동질성 (homogeneity) 가정에 기반한 충분 통계량 축소 (sufficient-statistic reduction) 입니다.

동질성 가정: 이득 함수 (gain function) 가 동질적입니다. 즉, $g(x_i, z) = \Psi(x_i)\Phi(z)$ 형태이며, $\Psi$ 는 차수 $\sigma \in (0, 1)$ 의 동질 함수입니다. 이는 단일 작업 내에서 토큰의 최적 구성 비율이 작업의 규모와 무관하게 일정함을 의미합니다.
집계 (Aggregation): 이 가정 하에서 사용자의 고차원 유형 프로파일은 스칼라 집계 유형 (scalar aggregate type, $\theta$ ) 하나로 요약됩니다.
$\theta(w) \equiv \left( \int_0^1 w_i^{\frac{1}{1-\sigma}} di \right)^{1-\sigma}$
여기서 $w_i$ 는 작업 $i$ 에 대한 사용자의 한계 가치입니다.
축소된 문제: 이 집합 성질 덕분에 공급자의 무한 차원 스크리닝 문제는 Mussa-Rosen (1978) 프레임워크와 같은 1 차원 스크리닝 문제로 축소됩니다. 사용자의 세부 작업 가치 분포는 총 토큰 수요와 잉여에 영향을 주지 않으며, 오직 집계 유형 $\theta$ 만이 결정적입니다.

3. 주요 결과 및 분석

3.1. 효율적 할당 (Efficient Allocation)

선형 가격: 용량 제약 하에서 효율적 할당은 인플레이션된 그림자 비용 (inflated shadow costs) 과 동일한 선형 가격을 통해 구현될 수 있습니다. 이는 개발자 대상 API 시장에서 관찰되는 '토큰당 선형 가격' 관행을 이론적으로 정당화합니다.
할당 구조: 모든 작업은 토큰 클래스를 동일한 비율로 사용하며, 규모만 작업의 한계 가치에 따라 달라집니다.

3.2. 단일 모델 독점 (Single-Model Monopoly)

최적 메커니즘: 최적의 메뉴는 전액 지출 계약 (committed-spend contracts) 형태를 띱니다. 구매자는 토큰 클래스를 공급자의 한계 비용으로 평가하여 자유롭게 배분할 수 있는 예산 (budget) 을 사전에 구매합니다.
간접 구현 (Indirect Implementations): 최적의 직접 메커니즘은 다음 세 가지 실제 가격 책정 방식으로 구현 가능합니다.
1. 최대 지출 메커니즘 (Maximum-Spend): 예산 상한선을 두고 토큰을 소진하면 접근이 차단됨 (예: Quora Poe).
2. 최소 지출 메커니즘 (Minimum-Spend): 일정 금액 이상 지출을 약속하고 토큰 단가를 할인받음 (예: GitHub Copilot 의 오버리지 옵션).
3. 양분 관세 (Two-Part Tariff): 고정 비용과 토큰당 변동 비용의 조합.
할인 구조: 고유형 (high types) 은 더 큰 예산을 구매하며, 단위 품질당 평균 가격은 감소합니다 (수량 할인).

3.3. 다중 모델 및 버전화 (Multiple Models)

모델 차별화: 공급자가 여러 모델 (예: OpenAI 의 GPT-4o-mini, o1 등) 을 제공할 때, 구매자는 작업을 모델에 할당합니다.
단일 모델 사용: 효율성 및 최적 메커니즘 하에서, 각 구매자 유형은 단 하나의 모델을 모든 작업에 사용합니다.
버전화 (Versioning): 고유형은 더 높은 파인튜닝 능력 ( $\hat{\sigma}$ ) 을 가진 고사양 모델을 사용합니다. 이는 Anthropic(사용량만 차별화) 과 OpenAI(모델 접근 권한과 사용량 동시 차별화) 의 전략적 차이를 설명합니다.

3.4. 경쟁 환경 (Proprietary Leader vs. Open-Source Fringe)

세 가지 영역: 독점적 리더 (Proprietary Leader) 와 경쟁적 프링지 (Open-source Fringe, 한계비용 가격 판매) 간의 경쟁 하에서 세 가지 영역이 발생합니다.
1. 저유형: 프링지만 이용.
2. 중간유형: 리더가 프링지의 '상위 보충 (top-up)'을 억제할 만큼의 토큰을 공급하여 독점적 지위를 유지 (Deterrence region).
3. 고유형: 프링지 경쟁이 제약이 되지 않아 독점적 왜곡이 발생.
확장 및 집약적 마진: 경쟁은 구매자 수 (확장적 마진) 와 구매량 (집약적 마진) 모두에 영향을 미칩니다.

4. 실무적 함의 및 사례 분석

이론적 모델은 주요 LLM 공급자의 실제 가격 책정 관행과 정확히 부합합니다.

이론적 개념	실제 사례	설명
단일 모델 스크리닝	Anthropic	모든 유료 티어가 동일한 모델 접근권을 가지며, 사용량 (토큰 예산) 만 차별화됨.
다중 모델 버전화	OpenAI	고가 티어일수록 더 강력한 모델 (o1-pro 등) 에 대한 접근 권한과 사용량을 동시 제공.
최대 지출 메커니즘	Quora Poe	월 구독료로 포인트 (예산) 를 부여하며, 소진 시 접근 차단 (하드 캡).
최소 지출 메커니즘	GitHub Copilot	기본 할당량 외 추가 사용 시 선형 가격으로 과금 (오버리지 허용).
선형 API 가격	모든 주요 공급자	개발자용 API 는 토큰당 선형 가격으로, 시장 점유율 확보를 위해 독점적 왜곡을 최소화.

5. 결론 및 의의

이론적 기여: LLM 과 같은 일반 목적 기술 (General Purpose Technology) 에 대한 복잡한 다차원 스크리닝 문제를, 생산 기술의 동질성을 통해 1 차원 문제로 축소하여 해결 가능한 체계를 제시했습니다.
실증적 일치: 현재 산업계에서 관찰되는 다양한 가격 책정 전략 (구독, 토큰 예산, 모델 버전화 등) 이 우연한 설계가 아니라, 정보 비대칭과 도덕적 해이 하에서 이윤을 극대화하기 위한 최적 메커니즘의 자연스러운 구현임을 보여줍니다.
미래 전망: 이 프레임워크는 클라우드 컴퓨팅 등 다른 컴퓨팅 자원 시장에도 적용 가능하며, 경쟁 구도와 동적 모델 개선 (학습) 을 고려한 확장 연구의 기초를 제공합니다.

이 논문은 LLM 시장의 가격 책정이 단순한 비즈니스 전략이 아니라, 깊은 경제학적 원리에 기반한 최적의 메커니즘 설계임을 입증했습니다.

Menu Pricing of Large Language Models